Wie viele Daten reichen aus, um mein Modell für maschinelles Lernen zu trainieren?

11

Ich habe eine Weile an maschinellem Lernen und Bioinformatik gearbeitet und heute ein Gespräch mit einem Kollegen über die wichtigsten allgemeinen Fragen des Data Mining geführt.

Mein Kollege (der Experte für maschinelles Lernen ist) sagte, dass seiner Meinung nach der wohl wichtigste praktische Aspekt des maschinellen Lernens darin besteht, zu verstehen, ob Sie genügend Daten gesammelt haben, um Ihr Modell für maschinelles Lernen zu trainieren .

Diese Aussage überraschte mich, weil ich diesem Aspekt noch nie so viel Bedeutung beigemessen hatte ...

Ich habe dann im Internet nach weiteren Informationen gesucht und diesen Beitrag auf FastML.com als Faustregel gefunden, dass Sie ungefähr zehnmal so viele Dateninstanzen benötigen, wie es Funktionen gibt .

Zwei Fragen:

1 - Ist dieses Thema beim maschinellen Lernen wirklich besonders relevant ?

2 - Funktioniert die 10-fache Regel? Gibt es andere relevante Quellen für dieses Thema?

DavideChicco.it
quelle
1. Ja. 2. Es ist eine gute Basislinie, aber Sie können sie mit Regularisierung umgehen, um die effektiven Freiheitsgrade zu verringern . Dies funktioniert besonders gut beim tiefen Lernen. 3. Sie können die Situation Ihres Problems diagnostizieren, indem Sie die Lernkurve der Stichprobengröße gegen den Fehler oder die Punktzahl auftragen.
Emre
@ Emmre Danke! Können Sie mir auch einige Artikel oder Materialien zum Lesen vorschlagen?
DavideChicco.it
Dies wird normalerweise zusammen mit der Kreuzvalidierung und anderen Modellvalidierungstechniken in Ihrem Lehrbuch behandelt.
Emre
Die 10-fache Regel ist großartig, wenn Sie sie erreichen können, aber in einigen Geschäftsumgebungen ist sie einfach nicht praktikabel. Es gibt viele Situationen, in denen die Anzahl der Features viel größer ist als bei Dateninstanzen (p >> n). Es gibt Techniken des maschinellen Lernens, die speziell für diese Situationen entwickelt wurden.
Data Science Typ
Wenn Sie eine detaillierte Erklärung benötigen, die Ihnen helfen kann, das Diagramm der Lernkurve zu verstehen, lesen
shrikanth singh

Antworten:

6

Die zehnfache Regel scheint mir eine Faustregel zu sein, aber es stimmt, dass die Leistung Ihres Algorithmus für maschinelles Lernen abnehmen kann, wenn Sie ihn nicht mit genügend Trainingsdaten versorgen.

Eine praktische und datengesteuerte Methode, um festzustellen, ob Sie über genügend Trainingsdaten verfügen, besteht darin, eine Lernkurve wie im folgenden Beispiel zu zeichnen:

Lernkurve

Die Lernkurve repräsentiert die Entwicklung der Trainings- und Testfehler, wenn Sie die Größe Ihres Trainingssatzes erhöhen.

  • Der Trainingsfehler nimmt mit zunehmender Größe Ihres Datensatzes zu, da es schwieriger wird, ein Modell anzupassen, das die zunehmende Komplexität / Variabilität Ihres Trainingssatzes berücksichtigt.
  • Der Testfehler nimmt mit zunehmender Größe Ihres Datasets ab, da das Modell aus einer höheren Informationsmenge besser verallgemeinern kann.

Wie Sie im rechten Teil des Diagramms sehen können, neigen die beiden Linien im Diagramm dazu, zu erreichen und zu asymptotisieren. Daher erreichen Sie irgendwann einen Punkt, an dem eine Vergrößerung Ihres Datensatzes keine Auswirkungen auf Ihr trainiertes Modell hat.

Der Abstand zwischen den Testfehler- und Trainingsfehlerasymptoten ist eine Darstellung der Überanpassung Ihres Modells. Noch wichtiger ist jedoch, dass in diesem Diagramm angegeben wird, ob Sie mehr Daten benötigen. Wenn Sie Test- und Trainingsfehler für die Vergrößerung größerer Teilmengen Ihrer Trainingsdaten darstellen und die Linien keine Asymptote zu erreichen scheinen, sollten Sie grundsätzlich weitere Daten sammeln.

Pablo Suau
quelle
In der Funktion learning_curve sollte ich X_train, y_train: Only train subsetoderX, y: the entire dataset
Rookie_123
Diese Kurve wird als Ergebnis der Kreuzvalidierung erstellt, wenn Sie die Anzahl der Stichproben erhöhen. Daher benötigen Sie den gesamten Datensatz.
Pablo Suau
4
  1. Ja, das Problem ist sicherlich relevant, da Ihre Fähigkeit, das Modell anzupassen, von der Datenmenge abhängt, die Sie haben, aber was noch wichtiger ist, es hängt von der Qualität der Prädiktoren ab.
  2. Eine 10-fache Regel ist möglicherweise eine Faustregel (und es gibt viele andere), hängt jedoch wirklich vom prädiktiven Nutzen Ihrer Funktionen ab. Beispielsweise ist der Iris-Datensatz ziemlich klein, aber leicht zu lösen, da die Merkmale eine gute Trennung der Ziele ergeben. Umgekehrt könnten Sie 10 Millionen Beispiele haben und nicht passen, wenn die Funktionen schwach sind.
HEITZ
quelle
Vielen Dank! Können Sie mir auch einige Artikel oder Materialien zum Lesen vorschlagen?
DavideChicco.it