Gibt es abgesehen von Überlegungen zur Rechenleistung Gründe zu der Annahme, dass eine Erhöhung der Anzahl der Falten bei der Kreuzvalidierung zu einer besseren Modellauswahl / -validierung führt (dh je höher die Anzahl der Falten, desto besser)?
Wird das Argument auf die Spitze getrieben, führt eine ausschließliche Kreuzvalidierung zwangsläufig zu besseren Modellen als eine fache Kreuzvalidierung?
Einige Hintergrundinformationen zu dieser Frage: Ich arbeite an einem Problem mit sehr wenigen Instanzen (z. B. 10 Positiven und 10 Negativen) und fürchte, dass sich meine Modelle möglicherweise nicht gut verallgemeinern lassen / mit so wenig Daten überladen würden.
cross-validation
bias-variance-tradeoff
Amelio Vazquez-Reina
quelle
quelle
Antworten:
Eine ausschließliche Kreuzvalidierung führt im Allgemeinen nicht zu einer besseren Leistung als die K-fache und ist mit größerer Wahrscheinlichkeit schlechter , da sie eine relativ hohe Varianz aufweist (dh, ihr Wert ändert sich für verschiedene Datenstichproben stärker als der Wert für k-fache Kreuzvalidierung). Dies ist bei einem Modellauswahlkriterium nicht der Fall, da das Modellauswahlkriterium so optimiert werden kann, dass lediglich die zufällige Variation in der jeweiligen Datenstichprobe ausgenutzt wird, anstatt eine echte Leistungsverbesserung zu erzielen, dh eine Überanpassung ist wahrscheinlicher das Modell Auswahlkriterium. Der Grund, warum in der Praxis eine einmalige Kreuzvalidierung verwendet wird, besteht darin, dass sie für viele Modelle als Nebenprodukt der Anpassung des Modells sehr kostengünstig bewertet werden kann.
Wenn der Rechenaufwand nicht in erster Linie ein Problem darstellt, besteht ein besserer Ansatz darin, eine wiederholte k-fache Kreuzvalidierung durchzuführen, wobei die Prozedur der k-fachen Kreuzvalidierung jedes Mal mit verschiedenen zufälligen Partitionen in k disjunkte Teilmengen wiederholt wird. Dies reduziert die Varianz.
Wenn Sie nur 20 Muster haben, ist es sehr wahrscheinlich , dass Sie das Modell Auswahlkriterium erleben Überanpassung, die ein sehr vernachlässigt pitfall in der Statistik ist und maschinelles Lernen (schamloser Werbung: siehe mein Papier zum Thema). Vielleicht ist es besser, ein relativ einfaches Modell zu wählen und es nicht sehr aggressiv zu optimieren, oder Sie verwenden einen Bayes-Ansatz und mitteln alle Modellentscheidungen, gewichtet nach ihrer Plausibilität. Die IMHO-Optimierung ist die Wurzel allen Übels in der Statistik. Daher ist es besser, nicht zu optimieren, wenn dies nicht erforderlich ist, und bei jeder Optimierung vorsichtig vorzugehen.
Beachten Sie auch, dass Sie bei der Modellauswahl eine verschachtelte Kreuzvalidierung verwenden müssen, wenn Sie auch eine Leistungsschätzung benötigen (dh Sie müssen die Modellauswahl als integralen Bestandteil des Modellanpassungsverfahrens betrachten und diese Kreuzvalidierung durchführen) auch).
quelle
Die Wahl der Anzahl K faltet sich unter Berücksichtigung der Lernkurve
Ich möchte argumentieren, dass die Wahl der geeigneten Anzahl von Falten stark von der Form und Position der Lernkurve abhängt, hauptsächlich aufgrund ihres Einflusses auf die Verzerrung . Dieses Argument, das sich auf einen nicht berücksichtigten Lebenslauf erstreckt, stammt größtenteils aus dem Buch "Elemente des statistischen Lernens", Kapitel 7.10, Seite 243.K
Für Diskussionen über den Einfluss von auf die Varianz siehe hierK
Eine intuitive Visualisierung anhand eines Spielzeugbeispiels
Um dieses Argument visuell zu verstehen, betrachten Sie das folgende Spielzeugbeispiel, in dem wir ein Polynom 4. Grades an eine verrauschte Sinuskurve anpassen:
Intuitiv und visuell erwarten wir, dass dieses Modell bei kleinen Datensätzen aufgrund von Überanpassung schlecht abschneidet. Dieses Verhalten spiegelt sich in der Lernkurve wider, in der wir Mittlerer quadratischer Fehler gegen Trainingsgröße zusammen mit 1 Standardabweichung darstellen. Beachten Sie, dass ich mich entschlossen habe, 1 - MSE hier zu zeichnen, um die in ESL Seite 243 verwendete Abbildung zu reproduzieren±1− ±
Diskussion über das Argument
Die Leistung des Modells verbessert sich erheblich, da die Trainingsgröße auf 50 Beobachtungen ansteigt. Eine weitere Erhöhung auf beispielsweise 200 bringt nur geringe Vorteile. Betrachten Sie die folgenden zwei Fälle:
Wenn unser Trainingssatz 200 Beobachtungen hätte, würde eine fache Kreuzvalidierung die Leistung über eine Trainingsgröße von 160 schätzen, was praktisch der Leistung für Trainingssatzgröße 200 entspricht. Somit würde die Kreuzvalidierung nicht unter einer starken Verzerrung und einer Erhöhung von bis leiden größere Werte bringen wenig Nutzen ( linkes Diagramm )K5 K
Allerdings , wenn der Trainingssatz hat Beobachtungen, - fach Kreuzvalidierung würde die Leistung des Modells schätzt über Sätze von Größe Ausbildung 40 und von der Lernkurve würde dies zu einem verzerrten Ergebnis führen. Daher wird in diesem Fall eine Erhöhung von dazu neigen, die Vorspannung zu verringern. ( rechte Handlung ).5 K50 5 K
[Update] - Kommentare zur Methodik
Den Code für diese Simulation finden Sie hier . Der Ansatz war der folgende:
Ein alternativer Ansatz besteht darin, nicht bei jeder Iteration einen neuen Datensatz neu abzutasten und stattdessen jedes Mal denselben Datensatz neu zu mischen . Dies scheint ähnliche Ergebnisse zu liefern.
quelle