Welchen Einfluss hat die Erhöhung der Trainingsdaten auf die Genauigkeit des Gesamtsystems?

15

Kann mir jemand mit möglichen Beispielen zusammenfassen, in welchen Situationen eine Erhöhung der Trainingsdaten das Gesamtsystem verbessert? Wann stellen wir fest, dass das Hinzufügen weiterer Trainingsdaten möglicherweise zu einer Überanpassung der Daten führt und die Testdaten nicht genau genug sind?

Dies ist eine sehr unspezifische Frage. Wenn Sie sie jedoch situationsspezifisch beantworten möchten, tun Sie dies bitte.

machine-learning classification dataset precision-recall madCode
quelle

Ich frage mich nur - geht es darum, ob eine 50-50-Aufteilung in Zug / Test besser ist als 75-25?

Wahrscheinlichkeitslogik

19

In den meisten Situationen sind mehr Daten normalerweise besser . Überanpassung ist im Wesentlichen das Erlernen von falschen Korrelationen, die in Ihren Trainingsdaten auftreten, jedoch nicht in der realen Welt. Wenn Sie beispielsweise nur meine Kollegen in Betracht ziehen, lernen Sie möglicherweise, "Matt" mit "hat einen Bart" zu assoziieren. Es ist zu 100% gültig ( , gerade!), Aber es ist offensichtlich im Allgemeinen nicht wahr. Durch Erhöhen der Größe Ihres Datensatzes (z. B. auf das gesamte Gebäude oder die gesamte Stadt) sollten diese falschen Korrelationen verringert und die Leistung Ihres Lernenden verbessert werden. $n=4$

Das heißt, eine Situation, in der mehr Daten nicht helfen - und sogar schaden können - ist, wenn Ihre zusätzlichen Trainingsdaten verrauscht sind oder nicht mit dem übereinstimmen, was Sie vorhersagen möchten. Ich habe einmal ein Experiment durchgeführt, bei dem ich verschiedene Sprachmodelle [*] an ein sprachaktiviertes Restaurantreservierungssystem angeschlossen habe. Ich habe die Menge der Trainingsdaten und deren Relevanz variiert: In einem Extremfall hatte ich eine kleine, sorgfältig zusammengestellte Sammlung von Personenbuchungstabellen, die perfekt zu meiner Anwendung passten. Auf der anderen Seite hatte ich ein Modell aus einer riesigen Sammlung klassischer Literatur, ein genaueres Sprachmodell, das aber viel schlechter zur Anwendung passte. Zu meiner Überraschung hat das kleine, aber relevante Modell das große, aber weniger relevante Modell bei weitem übertroffen.

Eine überraschende Situation, die als Doppelabstieg bezeichnet wird , tritt auch auf, wenn die Größe des Trainingssatzes nahe an der Anzahl der Modellparameter liegt. In diesen Fällen nimmt das Testrisiko zunächst mit zunehmender Größe des Trainingssatzes ab, steigt vorübergehend an, wenn ein bisschen mehr Trainingsdaten hinzugefügt werden, und beginnt schließlich wieder abzunehmen, wenn der Trainingssatz weiter wächst. Dieses Phänomen wurde 25 Jahre in der Literatur über neuronale Netze berichtet (siehe Opper, 1995), tritt aber auch in modernen Netzen auf ( Advani und Saxe, 2017 ). Interessanterweise geschieht dies sogar für eine lineare Regression, wenngleich eine von SGD angepasste ( Nakkiran, 2019)). Dieses Phänomen ist noch nicht vollständig verstanden und ist größtenteils von theoretischem Interesse: Ich würde es sicherlich nicht als Grund verwenden, keine weiteren Daten zu sammeln (obwohl ich möglicherweise mit der Größe des Trainingssatzes herumspielen würde, wenn n == p und die Leistung unerwartet schlecht wären ).

[*] Ein Sprachmodell ist nur die Wahrscheinlichkeit, eine bestimmte Folge von Wörtern zu sehen, z. B. . Sie sind wichtig, um halbwegs anständige Sprach- / Zeichenerkenner zu entwickeln. $P(w_n = \textrm{'quick', } w_{n+1} = \textrm{'brown', } w_{n+2} = \textrm{'fox'})$

Etwas Interesse

Matt Krause
quelle

12

Ein Hinweis: Durch Hinzufügen weiterer Daten (Zeilen oder Beispiele, keine Spalten oder Features) wird die Wahrscheinlichkeit einer Überanpassung eher verringert als erhöht.

Die Zusammenfassung der beiden Absätze sieht folgendermaßen aus:

Weitere Beispiele hinzuzufügen, fügt Vielfalt hinzu. Dies verringert den Generalisierungsfehler, da Ihr Modell allgemeiner wird, da es an mehr Beispielen geschult wird.
Das Hinzufügen weiterer Eingabe-Features oder Spalten (zu einer festgelegten Anzahl von Beispielen) kann die Überanpassung erhöhen, da weitere Features entweder irrelevant oder redundant sind und die Möglichkeit besteht, das Modell zu komplizieren, um die vorliegenden Beispiele anzupassen.

Es gibt einige vereinfachende Kriterien, um die Qualität von Modellen zu vergleichen. Schauen Sie sich zum Beispiel AIC oder BIC an .

Beide zeigen, dass das Hinzufügen von mehr Daten Modelle immer besser macht, während das Hinzufügen von Parameterkomplexität über das Optimum hinaus die Modellqualität verringert.

Arielf
quelle

1

Das Erhöhen der Trainingsdaten fügt immer Informationen hinzu und sollte die Passform verbessern. Die Schwierigkeit ergibt sich, wenn Sie die Leistung des Klassifikators nur anhand der Trainingsdaten bewerten, die für die Anpassung verwendet wurden. Dies führt zu optimistisch voreingenommenen Bewertungen und ist der Grund, warum stattdessen eine einmalige Kreuzvalidierung oder ein Bootstrap verwendet wird.

Michael R. Chernick
quelle

1

Wenn Sie mehr Trainingsbeispiele haben, werden Sie im Idealfall einen geringeren Testfehler haben (Varianz der Modellabnahme, was bedeutet, dass wir weniger überpassend sind). Theoretisch bedeutet mehr Daten jedoch nicht immer, dass Sie ein genaueres Modell als Modelle mit hoher Abweichung haben wird nicht von mehr Trainingsbeispielen profitieren .

Siehe hier: Was ist beim maschinellen Lernen besser? Mehr Daten oder bessere Algorithmen

Hohe Varianz - ein Modell, das ein gut eingestelltes Training darstellt, aber das Risiko einer Überanpassung an verrauschte oder nicht repräsentative Trainingsdaten birgt.

Hoher Bias - ein einfacheres Modell, das nicht zu Überanpassung neigt, aber möglicherweise die Trainingsdaten unterschreitet und wichtige Regelmäßigkeiten nicht erfasst.

Glücklicher Zufall
quelle

-1

Die Spektrumanalyse hilft bei der Analyse der Vielfalt der Stichprobe, in der Tat werden die falschen Informationen bei der Modellierung gelernt, wenn nicht "echte Stichproben" hinzugefügt werden, was üblicherweise als Überanpassung bezeichnet wird. Wenn die von der Stichprobe bereitgestellten Informationen geringer sind, wird in der Regel die Bereitstellung einer realeren Stichprobe empfohlen, um sicherzustellen, dass die nützlichen Informationen für die Prüfung verwendet werden können. Viel Glück!

user162580
quelle

3

Es ist schwierig, diese Antwort zu verstehen. War es vielleicht maschinell übersetzt aus einer anderen Sprache? Gibt es eine Möglichkeit, wie Sie es überprüfen und bearbeiten können, damit es die Ideen vermittelt, die Sie mit uns teilen möchten?

whuber

Ich verstehe Ihre Antwort nicht.

user162580

3

Es sieht so aus, als hätten wir ein Sprachproblem: Die Wörter, die Sie gepostet haben, sind auf Englisch nicht sinnvoll. Kannst du sie so ändern, dass sie Sinn ergeben?

whuber

Welchen Einfluss hat die Erhöhung der Trainingsdaten auf die Genauigkeit des Gesamtsystems?

Antworten: