Wie vergleichen sich verschiedene Kreuzvalidierungsmethoden in Bezug auf Modellvarianz und Verzerrung?
Meine Frage ist zum Teil durch diesen Thread motiviert: Optimale Anzahl von Falten bei der fachen Kreuzvalidierung: Ist ein ausschließlicher Lebenslauf immer die beste Wahl? . Die dortige Antwort legt nahe, dass Modelle, die mit einer einmaligen Kreuzvalidierung erlernt wurden, eine höhere Varianz aufweisen als Modelle, die mit einer regulären fachen Kreuzvalidierung erlernt wurden , wodurch ein einmaliger Lebenslauf eine schlechtere Wahl darstellt.
Meine Intuition sagt mir jedoch, dass man im ausgelassenen Lebenslauf eine relativ geringere Varianz zwischen den Modellen sehen sollte als im Fold-Lebenslauf, da wir nur einen Datenpunkt über Falten verschieben und daher die Trainingssätze zwischen den Falten erheblich überlappen.
Oder in die andere Richtung: Wenn im K- fachen Lebenslauf niedrig ist , sind die Trainingssätze über die Falten hinweg sehr unterschiedlich, und die resultierenden Modelle unterscheiden sich mit größerer Wahrscheinlichkeit (daher höhere Varianz).
Wenn das obige Argument zutrifft, warum würden Modelle, die mit einem einmaligen Lebenslauf erlernt wurden, eine höhere Varianz aufweisen?
quelle
Antworten:
[TL: DR] Eine Zusammenfassung der letzten Beiträge und Debatten (Juli 2018)
Dieses Thema wurde sowohl auf dieser Site als auch in der wissenschaftlichen Literatur mit widersprüchlichen Ansichten, Intuitionen und Schlussfolgerungen ausführlich diskutiert. Als diese Frage zum ersten Mal gestellt wurde, war 2013 die vorherrschende Ansicht, dass LOOCV zu einer größeren Varianz des erwarteten Generalisierungsfehlers eines Trainingsalgorithmus führt, der Modelle aus Stichproben der Größe .n(K−1)/K
Diese Ansicht scheint jedoch eine falsche Verallgemeinerung eines Sonderfalls zu sein, und ich würde argumentieren, dass die richtige Antwort lautet: "es kommt darauf an ..."
Yves Grandvalet, der Autor eines Papers aus dem Jahr 2004, zum Thema paraphrasiert. Ich würde das intuitive Argument wie folgt zusammenfassen:
Experimentelle Simulationen von mir und anderen auf dieser Site sowie von Forschern in den unten verlinkten Artikeln werden Ihnen zeigen, dass es keine universelle Wahrheit zu diesem Thema gibt. Die meisten Experimente monoton abnehmende oder konstante Varianz mit , aber einige Sonderfälle zeigen zunehmende Varianz mit K .K K
Der Rest dieser Antwort schlägt eine Simulation an einem Spielzeugbeispiel und eine informelle Literaturrecherche vor.
[Update] Sie können finden hier eine alternative Simulation für ein instabiles Modell in Gegenwart von Ausreißern.
Simulationen aus einem Spielzeugbeispiel mit abnehmender / konstanter Varianz
Betrachten Sie das folgende Spielzeugbeispiel, in dem wir ein Polynom vom Grad 4 an eine verrauschte Sinuskurve anpassen. Wir erwarten, dass dieses Modell bei kleinen Datenmengen aufgrund von Überanpassung schlecht abschneidet, wie die Lernkurve zeigt.
Beachten Sie, dass wir hier 1 - MSE darstellen, um die Abbildung von ESLII Seite 243 zu reproduzieren
Methodik
Den Code für diese Simulation finden Sie hier . Der Ansatz war der folgende:
Einfluss von auf den Bias und die Varianz der MSE in i- Datensätzen.K ich
Linke Seite : Kfolds für 200 Datenpunkte, Rechte Seite : Kfolds für 40 Datenpunkte
Standardabweichung von MSE (über Datensätze i) zu Kfolds
Aus dieser Simulation geht hervor, dass:
Eine informelle Literaturübersicht
Die folgenden drei Arbeiten untersuchen die Verzerrung und Varianz der Kreuzvalidierung
Kohavi 1995
Dieses Papier wird oft als Quelle für das Argument bezeichnet, dass LOOC eine höhere Varianz aufweist. In Abschnitt 1:
Diese Aussage ist sehr verwirrend, da sie anscheinend von Efron aus dem Jahr 1983 stammt und nicht von Kohavi. Sowohl die theoretischen Argumentationen von Kohavi als auch die experimentellen Ergebnisse sprechen gegen diese Aussage:
Folgerung 2 (Abweichung im Lebenslauf)
Experiment In seinem Experiment vergleicht Kohavi zwei Algorithmen: einen C4.5-Entscheidungsbaum und einen Naive Bayes-Klassifikator für mehrere Datensätze aus dem UC Irvine-Repository. Seine Ergebnisse sind unten: LHS ist Genauigkeit gegen Falten (dh Bias) und RHS ist Standardabweichung gegen Falten
Tatsächlich weist nur der Entscheidungsbaum in drei Datensätzen eindeutig eine höhere Varianz für die Erhöhung von K auf. Andere Ergebnisse zeigen eine abnehmende oder konstante Varianz.
Obwohl die Schlussfolgerung klarer formuliert werden könnte, gibt es schließlich kein Argument dafür, dass LOO eine höhere Varianz aufweist, im Gegenteil. Ab Abschnitt 6. Zusammenfassung
Zhang und Yang
Die Autoren vertreten eine starke Meinung zu diesem Thema und geben dies in Abschnitt 7.1 deutlich an
Experimentelle Ergebnisse In ähnlicher Weise weisen Zhangs Experimente in die Richtung abnehmender Varianz mit K, wie unten für das wahre Modell und das falsche Modell für Abbildung 3 und Abbildung 5 gezeigt.
quelle
Beachten Sie jedoch, dass die zweifache Kreuzvalidierung zwar nicht das Problem der Überlappung von Trainingssätzen hat, jedoch häufig auch große Abweichungen aufweist, da die Trainingssätze nur halb so groß sind wie die ursprüngliche Stichprobe. Ein guter Kompromiss ist die zehnfache Kreuzvalidierung.
Einige interessante Artikel, die sich mit diesem Thema befassen (aus vielen anderen):
quelle
Ich denke, Ihre Intuition ist vernünftig, wenn Sie über die Vorhersagen nachdenken, die die Modelle auf jeder Auslassungsfalte getroffen haben. Sie basieren auf korrelierten / sehr ähnlichen Daten (der gesamte Datensatz minus einem Datenpunkt) und treffen daher ähnliche Vorhersagen - dh geringe Variabilität.
Die Quelle der Verwirrung ist jedoch, dass die Leute, wenn sie über LOOCV sprechen, was zu einer hohen Variabilität führt, nicht über die Vorhersagen sprechen, die von den vielen Modellen gemacht wurden, die während dieser Schleife der Kreuzvalidierung auf den Holdout-Sets erstellt wurden. Stattdessen geht es darum, wie viel Variabilität Ihr letztendlich ausgewähltes Modell (das über LOOCV ausgewählte) haben würde, wenn Sie das genaue Modell / die genauen Parameter in neuen Trainingssätzen trainieren würden - Trainingssätze, die Ihr Modell noch nicht gesehen hat. In diesem Fall wäre die Variabilität hoch.
Warum sollte die Variabilität hoch sein? Vereinfachen wir dies ein wenig. Anstatt mit LOOCV ein Modell auszuwählen, haben Sie nur einen Trainingssatz erstellt und dann ein Modell getestet, das mit diesen Trainingsdaten erstellt wurde, z. B. 100-mal mit 100 einzelnen Testdatenpunkten (Datenpunkte sind nicht Teil des Trainingssatzes). . Wenn Sie das Modell und den Parametersatz auswählen, die für diese 100 Tests am besten geeignet sind, wählen Sie einen aus, der es diesem speziellen Trainingssatz ermöglicht, die Testdaten wirklich gut vorherzusagen. Sie können möglicherweise ein Modell auswählen, das 100% der Zuordnungen zwischen diesem bestimmten Trainingsdatensatz und den Holdout-Daten erfasst. Leider handelt es sich bei einem Teil dieser Assoziationen zwischen den Trainings- und Testdatensätzen um Rauschen oder falsche Assoziationen, da sich der Testsatz zwar ändert und Sie Rauschen auf dieser Seite identifizieren können. Im Trainingsdatensatz ist dies nicht der Fall, und Sie können nicht feststellen, welche erklärten Abweichungen auf Rauschen zurückzuführen sind. Mit anderen Worten, dies bedeutet, dass Sie Ihre Vorhersagen für diesen bestimmten Trainingsdatensatz übertroffen haben.
Was würde passieren, wenn Sie dieses Modell mehrmals mit denselben Parametern auf neuen Trainingssätzen trainieren würden? Nun, ein Modell, das zu einem bestimmten Satz von Trainingsdaten überangepasst ist, führt zu einer Variabilität in seiner Vorhersage, wenn sich der Trainingssatz ändert (dh, wenn sich der Trainingssatz geringfügig ändert und das Modell seine Vorhersagen wesentlich ändert).
Da alle Falten in LOOCV stark korreliert sind, ähnelt es dem obigen Fall (gleicher Trainingssatz; verschiedene Testpunkte). Mit anderen Worten, wenn dieser bestimmte Trainingssatz eine falsche Korrelation mit diesen Testpunkten aufweist, hat Ihr Modell Schwierigkeiten zu bestimmen, welche Korrelationen real und welche falsch sind, da der Trainingssatz sich zwar ändert, dies jedoch nicht tut.
Im Gegensatz dazu bedeutet weniger korrelierte Trainingsfalten, dass das Modell an mehrere eindeutige Datensätze angepasst werden kann. Wenn Sie also in dieser Situation das Modell in einem anderen neuen Datensatz neu trainieren, führt dies zu einer ähnlichen Vorhersage (dh zu einer geringen Variabilität).
quelle
Obwohl diese Frage ziemlich alt ist, möchte ich eine zusätzliche Antwort hinzufügen, da ich der Meinung bin, dass es sich lohnt, dies etwas näher zu erläutern.
Diese Antwort legt dies nicht nahe und sollte es auch nicht. Sehen wir uns die dort bereitgestellte Antwort an:
Es geht um Leistung . Unter Leistung ist hier die Leistung des Modellfehlerschätzers zu verstehen . Was Sie mit k-fach oder LOOCV schätzen, ist die Modellleistung, sowohl bei Verwendung dieser Techniken zur Auswahl des Modells als auch zur Bereitstellung einer Fehlerschätzung an sich. Dies ist NICHT die Modellvarianz, sondern die Varianz des Schätzers des Fehlers (des Modells). Siehe das Beispiel (*) unten.
Es ist genau diese geringere Varianz und höhere Korrelation zwischen Modellen, die den Schätzer, von dem ich oben spreche, zu einer größeren Varianz macht, da dieser Schätzer der Mittelwert dieser korrelierten Größen ist und die Varianz des Mittelwerts der korrelierten Daten höher ist als die der nicht korrelierten Daten . Hier wird gezeigt, warum: Varianz des Mittelwerts von korrelierten und nicht korrelierten Daten .
Tatsächlich.
Das obige Argument ist richtig. Nun ist die Frage falsch. Die Varianz des Modells ist ein ganz anderes Thema. Es gibt eine Varianz, in der es eine Zufallsvariable gibt. Beim maschinellen Lernen beschäftigen Sie sich mit vielen Zufallsvariablen, insbesondere und nicht beschränkt auf: Jede Beobachtung ist eine Zufallsvariable; Die Stichprobe ist eine Zufallsvariable. Das Modell ist eine Zufallsvariable, da es aus einer Zufallsvariablen trainiert wird. Der Schätzer für den Fehler, den Ihr Modell in Bezug auf die Grundgesamtheit erzeugt, ist eine Zufallsvariable. und nicht zuletzt ist der Fehler des Modells eine Zufallsvariable, da wahrscheinlich Rauschen in der Grundgesamtheit vorhanden ist (dies wird als irreduzibler Fehler bezeichnet). Es kann auch mehr Zufälligkeit geben, wenn der Lernprozess des Modells Stochastizität aufweist. Es ist von größter Bedeutung, zwischen all diesen Variablen zu unterscheiden.
Der letzte, der zwar mehr Verzerrungen aufweist, sollte bevorzugt werden, da er eine viel geringere Varianz und eine akzeptable Verzerrung aufweist, dh einen Kompromiss ( Kompromiss zwischen Verzerrung und Varianz ). Bitte beachten Sie, dass Sie auch keine sehr geringe Varianz wünschen, wenn dies eine hohe Verzerrung mit sich bringt!
Zusätzlicher Hinweis : In dieser Antwort versuche ich, die Missverständnisse zu klären (was ich denke) , die dieses Thema umgeben, und insbesondere zu versuchen, Punkt für Punkt und genau die Zweifel zu beantworten, die der Fragesteller hat. Insbesondere versuche ich zu verdeutlichen, um welche Varianz es sich handelt , worum es hier im Wesentlichen geht. Ich erkläre die Antwort, die durch das OP verbunden ist.
Abgesehen davon haben wir, obwohl ich die theoretische Begründung für diese Behauptung vorlege, noch keine schlüssigen empirischen Beweise gefunden, die diese Behauptung stützen. Also sei bitte sehr vorsichtig.
Im Idealfall sollten Sie diesen Beitrag zuerst lesen und dann auf die Antwort von Xavier Bourret Sicotte verweisen, die eine aufschlussreiche Diskussion über die empirischen Aspekte bietet.
quelle
Die Probleme sind in der Tat subtil. Aber es ist definitiv nicht wahr, dass LOOCV im Allgemeinen eine größere Varianz aufweist. In einem kürzlich erschienenen Papier werden einige Schlüsselaspekte erörtert und mehrere anscheinend weit verbreitete Missverständnisse in Bezug auf die gegenseitige Validierung angesprochen.
Yongli Zhang und Yuhong Yang (2015). Kreuzvalidierung zur Auswahl eines Modellauswahlverfahrens. Journal of Econometrics, vol. 187, 95 & ndash; 112.
Ausführlicher:
quelle
Vor der Erörterung von Voreingenommenheit und Varianz lautet die erste Frage:
quelle
Ich denke, es gibt eine einfachere Antwort. Wenn Sie k erhöhen, werden die Testsätze immer kleiner. Da die Falten zufällig abgetastet werden, kann es bei kleinen Testsätzen vorkommen, dass sie nicht für ein zufälliges Mischen repräsentativ sind, bei größeren jedoch weniger wahrscheinlich. Ein Testsatz könnte alle schwer vorhersagbaren Aufzeichnungen und ein anderer alle einfachen Aufzeichnungen enthalten. Daher ist die Varianz hoch, wenn Sie sehr kleine Testsätze pro Falte vorhersagen.
quelle