Bias und Varianz in der Leave-One-Out- vs. K-Fold-Kreuzvalidierung

83

Wie vergleichen sich verschiedene Kreuzvalidierungsmethoden in Bezug auf Modellvarianz und Verzerrung?

Meine Frage ist zum Teil durch diesen Thread motiviert: Optimale Anzahl von Falten bei der fachen Kreuzvalidierung: Ist ein ausschließlicher Lebenslauf immer die beste Wahl? K. Die dortige Antwort legt nahe, dass Modelle, die mit einer einmaligen Kreuzvalidierung erlernt wurden, eine höhere Varianz aufweisen als Modelle, die mit einer regulären fachen Kreuzvalidierung erlernt wurden , wodurch ein einmaliger Lebenslauf eine schlechtere Wahl darstellt.K

Meine Intuition sagt mir jedoch, dass man im ausgelassenen Lebenslauf eine relativ geringere Varianz zwischen den Modellen sehen sollte als im Fold-Lebenslauf, da wir nur einen Datenpunkt über Falten verschieben und daher die Trainingssätze zwischen den Falten erheblich überlappen.K

Oder in die andere Richtung: Wenn im K- fachen Lebenslauf niedrig ist , sind die Trainingssätze über die Falten hinweg sehr unterschiedlich, und die resultierenden Modelle unterscheiden sich mit größerer Wahrscheinlichkeit (daher höhere Varianz).KK

Wenn das obige Argument zutrifft, warum würden Modelle, die mit einem einmaligen Lebenslauf erlernt wurden, eine höhere Varianz aufweisen?

Amelio Vazquez-Reina
quelle
2
Hallo Amelio. Bitte beachten Sie, dass Simulationen in der neuen Antwort von Xavier und in diesem älteren Q von Jake Westfall stats.stackexchange.com/questions/280665 zeigen, dass die Varianz mit K abnimmt . Dies steht in direktem Widerspruch zu der aktuell akzeptierten Antwort und auch zu der am besten bewerteten Antwort (die zuvor akzeptiert wurde). Ich habe nirgendwo eine Simulation gesehen, die die Behauptung stützen würde, dass die Varianz mit K zunimmt und für LOOCV am höchsten ist. KK
Amöbe
2
Danke @amoeba Ich beobachte den Fortschritt bei beiden Antworten. Ich werde auf jeden Fall mein Bestes tun, um sicherzustellen, dass die akzeptierte Antwort auf die nützlichste und korrekteste verweist.
Amelio Vazquez-Reina
1
@amoeba siehe researchgate.net/profile/Francisco_Martinez-Murcia/publication/… was eine Zunahme der Varianz mit k zeigt
Hanan Shteingart
Es wäre interessant zu sehen, woher er diesen Graphen bezieht. Bei einem ersten Blick auf die These sieht es so aus, als ob sie passend zu seinen Erklärungen in den Einleitungsabschnitten zusammengestellt wurde. Vielleicht ist es eine tatsächliche Simulation, aber es ist nicht erklärt, und es ist sicherlich kein Ergebnis seiner tatsächlichen Experimente, die niedriger sind ...
Xavier Bourret Sicotte

Antworten:

51

Warum haben Modelle, die mit einem einmaligen Lebenslauf gelernt wurden, eine höhere Varianz?

[TL: DR] Eine Zusammenfassung der letzten Beiträge und Debatten (Juli 2018)

Dieses Thema wurde sowohl auf dieser Site als auch in der wissenschaftlichen Literatur mit widersprüchlichen Ansichten, Intuitionen und Schlussfolgerungen ausführlich diskutiert. Als diese Frage zum ersten Mal gestellt wurde, war 2013 die vorherrschende Ansicht, dass LOOCV zu einer größeren Varianz des erwarteten Generalisierungsfehlers eines Trainingsalgorithmus führt, der Modelle aus Stichproben der Größe .n(K1)/K

Diese Ansicht scheint jedoch eine falsche Verallgemeinerung eines Sonderfalls zu sein, und ich würde argumentieren, dass die richtige Antwort lautet: "es kommt darauf an ..."

Yves Grandvalet, der Autor eines Papers aus dem Jahr 2004, zum Thema paraphrasiert. Ich würde das intuitive Argument wie folgt zusammenfassen:

  1. Wenn bei der Kreuzvalidierung unabhängige Schätzungen gemittelt werden : Wenn Sie den Lebenslauf weglassen, sollte die Varianz zwischen den Modellen relativ gering sein, da wir nur einen Datenpunkt über die Falten verschieben und sich die Trainingssätze zwischen den Falten daher erheblich überlappen.
  2. Dies trifft nicht zu, wenn die Trainingssätze stark korreliert sind : Die Korrelation kann mit K zunehmen, und diese Zunahme ist für die allgemeine Zunahme der Varianz im zweiten Szenario verantwortlich. Intuitiv kann in dieser Situation ein ausgelassener Lebenslauf für vorhandene Instabilitäten blind sein, jedoch nicht durch Ändern eines einzelnen Punkts in den Trainingsdaten ausgelöst werden, was ihn in hohem Maße variabel für die Realisierung des Trainingssatzes macht.

Experimentelle Simulationen von mir und anderen auf dieser Site sowie von Forschern in den unten verlinkten Artikeln werden Ihnen zeigen, dass es keine universelle Wahrheit zu diesem Thema gibt. Die meisten Experimente monoton abnehmende oder konstante Varianz mit , aber einige Sonderfälle zeigen zunehmende Varianz mit K .KK

Der Rest dieser Antwort schlägt eine Simulation an einem Spielzeugbeispiel und eine informelle Literaturrecherche vor.

[Update] Sie können finden hier eine alternative Simulation für ein instabiles Modell in Gegenwart von Ausreißern.

Simulationen aus einem Spielzeugbeispiel mit abnehmender / konstanter Varianz

Betrachten Sie das folgende Spielzeugbeispiel, in dem wir ein Polynom vom Grad 4 an eine verrauschte Sinuskurve anpassen. Wir erwarten, dass dieses Modell bei kleinen Datenmengen aufgrund von Überanpassung schlecht abschneidet, wie die Lernkurve zeigt.

Bildbeschreibung hier eingeben

Beachten Sie, dass wir hier 1 - MSE darstellen, um die Abbildung von ESLII Seite 243 zu reproduzieren

 Methodik

Den Code für diese Simulation finden Sie hier . Der Ansatz war der folgende:

  1. Generieren Sie 10.000 Punkte aus der Verteilung wobei die wahre Varianz von ϵ bekannt istsin(x)+ϵϵ
  2. Iteriere mal (zB 100 oder 200 mal). Ändern Sie bei jeder Iteration den Datensatz, indem Sie N Punkte aus der ursprünglichen Verteilung neu abtasteniN
  3. Für jeden Datensatz : i
    • Führen Sie eine K-fache Kreuzvalidierung für einen Wert von K
    • Speichern Sie den durchschnittlichen mittleren quadratischen Fehler (MSE) über die K-Falten
  4. Sobald die Schleife über abgeschlossen ist, berechnen Sie den Mittelwert und die Standardabweichung der MSE über die i- Datensätze für den gleichen Wert von KiiK
  5. Wiederholen Sie die Schritte für alle in Bereich { 5 , . . . , N } den ganzen Weg, um einen Lebenslauf wegzulassen (LOOCV)K{5,...,N}

Einfluss von auf den Bias und die Varianz der MSE in i- Datensätzen.Kich

Linke Seite : Kfolds für 200 Datenpunkte, Rechte Seite : Kfolds für 40 Datenpunkte

Bildbeschreibung hier eingeben

Standardabweichung von MSE (über Datensätze i) zu Kfolds

Bildbeschreibung hier eingeben

Aus dieser Simulation geht hervor, dass:

  • Für eine kleine Anzahl von Datenpunkten verbessert das Erhöhen von K bis etwa K = 10 sowohl die Vorspannung als auch die Varianz signifikant. Für einen größeren K gibt es keine Auswirkung auf die Vorspannung oder die Varianz.N=40KK=10K
  • Die Intuition ist, dass für eine zu kleine effektive Trainingsgröße das Polynommodell sehr instabil ist, insbesondere für K5
  • Bei größeren Erhöhung von K keinen besonderen Einfluss sowohl auf die Vorspannung als auch auf die Varianz.N=200K

Eine informelle Literaturübersicht

Die folgenden drei Arbeiten untersuchen die Verzerrung und Varianz der Kreuzvalidierung

Kohavi 1995

Dieses Papier wird oft als Quelle für das Argument bezeichnet, dass LOOC eine höhere Varianz aufweist. In Abschnitt 1:

"Zum Beispiel ist Leave-Oneout fast unvoreingenommen, weist jedoch eine hohe Varianz auf, was zu unzuverlässigen Schätzungen führt (Efron 1983)."

Diese Aussage ist sehr verwirrend, da sie anscheinend von Efron aus dem Jahr 1983 stammt und nicht von Kohavi. Sowohl die theoretischen Argumentationen von Kohavi als auch die experimentellen Ergebnisse sprechen gegen diese Aussage:

Folgerung 2 (Abweichung im Lebenslauf)

Gegeben ein Datensatz und ein Induktor. Wenn der Induktor unter den Störungen stabil ist, die durch Löschen der Testinstanzen für die Falten im k-fachen CV für verschiedene Werte von , ist die Varianz der Schätzung dieselbek

Experiment In seinem Experiment vergleicht Kohavi zwei Algorithmen: einen C4.5-Entscheidungsbaum und einen Naive Bayes-Klassifikator für mehrere Datensätze aus dem UC Irvine-Repository. Seine Ergebnisse sind unten: LHS ist Genauigkeit gegen Falten (dh Bias) und RHS ist Standardabweichung gegen Falten

Bildbeschreibung hier eingeben

Tatsächlich weist nur der Entscheidungsbaum in drei Datensätzen eindeutig eine höhere Varianz für die Erhöhung von K auf. Andere Ergebnisse zeigen eine abnehmende oder konstante Varianz.

Obwohl die Schlussfolgerung klarer formuliert werden könnte, gibt es schließlich kein Argument dafür, dass LOO eine höhere Varianz aufweist, im Gegenteil. Ab Abschnitt 6. Zusammenfassung

"k-fache Kreuzvalidierung mit moderaten k-Werten (10-20) reduziert die Varianz ... Wenn k-abnimmt (2-5) und die Stichproben kleiner werden, gibt es Varianz aufgrund der Instabilität der Trainingssätze.

Zhang und Yang

Die Autoren vertreten eine starke Meinung zu diesem Thema und geben dies in Abschnitt 7.1 deutlich an

Tatsächlich zeigt Burman (1989), dass unter den k-fachen CVs bei der Schätzung des Vorhersagefehlers LOO (dh n-facher CV) die kleinste asymptotische Verzerrung und Varianz aufweist. ...

... Dann zeigt eine theoretische Berechnung ( Lu , 2007), dass LOO die geringste Verzerrung und Varianz unter allen Delete-n-CVs gleichzeitig aufweist, wobei alle möglichen n_v-Deletionen berücksichtigt werden

Experimentelle Ergebnisse In ähnlicher Weise weisen Zhangs Experimente in die Richtung abnehmender Varianz mit K, wie unten für das wahre Modell und das falsche Modell für Abbildung 3 und Abbildung 5 gezeigt.

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben

K

Wenn es sich jedoch um eine Modellauswahl handelt, verschlechtert sich die Leistung von LOO in Bezug auf die Variabilität, da die Modellauswahlunsicherheit aufgrund eines großen Modellraums, kleiner Strafkoeffizienten und / oder der Verwendung datengesteuerter Strafkoeffizienten höher wird

Xavier Bourret Sicotte
quelle
11
KK
4
@amoeba Hier ist ein Fall, in dem LOOCV fehlschlägt: Betrachte n Datenpunkte und ein Interpolationspolynom vom Grad n. Verdoppeln Sie nun die Anzahl der Datenpunkte, indem Sie für jeden vorhandenen Punkt ein Duplikat hinzufügen. LOOCV sagt, der Fehler sei Null. Sie müssen die Falten senken, um nützliche Informationen zu erhalten.
Paul
2
Für diejenigen, die an dieser Diskussion interessiert sind - lassen Sie uns im Chat fortfahren
Xavier Bourret Sicotte
1
k-fOldk=10
1
@amoeba: bezüglich Kohavi / LOO und Varianz. Ich fand, dass LOO für einige Klassifizierungsmodelle ziemlich (überraschend) instabil sein kann. Dies ist besonders ausgeprägt bei kleinen Stichproben, und ich denke, es hängt mit dem Testfall zusammen, der immer zu der Klasse gehört, die in der Regel unterrepräsentiert ist. das ganze sample: in der binären klassifikation stratified leave-2-out scheint dieses problem nicht zu haben (habe ich aber nicht ausgiebig getestet). Diese Instabilität würde zu der beobachteten Varianz beitragen und LOO aus den anderen Möglichkeiten von k herausragen lassen. Dies steht im Einklang mit Kohavis Erkenntnissen.
Glaube
45

kkSSichSSichSich

k>2

Var(ich=1NXich)=ich=1Nj=1NCov(Xich,Xj)

k

Beachten Sie jedoch, dass die zweifache Kreuzvalidierung zwar nicht das Problem der Überlappung von Trainingssätzen hat, jedoch häufig auch große Abweichungen aufweist, da die Trainingssätze nur halb so groß sind wie die ursprüngliche Stichprobe. Ein guter Kompromiss ist die zehnfache Kreuzvalidierung.

Einige interessante Artikel, die sich mit diesem Thema befassen (aus vielen anderen):

Gitte
quelle
5
+1 (vor langer Zeit), aber lese deine Antwort jetzt noch einmal durch, ich bin durch das folgende Bit verwirrt. Sie sagen, dass der zweifache Lebenslauf "häufig auch große Abweichungen aufweist, weil die Trainingssätze nur halb so groß sind". Ich verstehe, dass es ein Problem ist, ein Trainingsset zweimal kleiner zu haben, aber warum gibt es "große Varianz"? Sollte es nicht stattdessen "große Voreingenommenheit" sein? Dann wird das ganze Problem der Wahl der Anzahl der Falten zu einem Kompromiss zwischen Bias und Varianz, wie es häufig dargestellt wird.
Amöbe
1
k
3
Ich habe mich nur mit Literatur befasst. Interessanterweise sagen James, Witten, Hastie & Tibshirani in Introduction to Statistical Learning, dass LOOCV "sehr variabel ist, da es auf einer einzelnen Beobachtung (x1, y1) basiert". und in Elements of Statistical Learning sagen Hastie & Tibshirani & Friedman, dass LOOCV "eine hohe Varianz haben kann, weil die N Trainingssätze einander so ähnlich sind".
2
veinr[ΣXich/n]ΣΣcOv(Xich,Xj)/n2
3
Nein, das ist nicht wirklich der "springende Punkt". Die Menschen verwenden den k-fachen Lebenslauf, um immer eine einzige globale Schätzung zu erhalten. Sie können sicherlich versuchen, die Mehrfachfaltenschätzungen auf andere Weise zu verwenden, aber das Zusammenfügen ist eine der häufigsten Methoden, um die Holdout-Leistung einer Modellierungstechnik abzuschätzen. Und genau das tut Gl. 7.48 der ESL.
Paul
27

K

Ich denke, Ihre Intuition ist vernünftig, wenn Sie über die Vorhersagen nachdenken, die die Modelle auf jeder Auslassungsfalte getroffen haben. Sie basieren auf korrelierten / sehr ähnlichen Daten (der gesamte Datensatz minus einem Datenpunkt) und treffen daher ähnliche Vorhersagen - dh geringe Variabilität.

Die Quelle der Verwirrung ist jedoch, dass die Leute, wenn sie über LOOCV sprechen, was zu einer hohen Variabilität führt, nicht über die Vorhersagen sprechen, die von den vielen Modellen gemacht wurden, die während dieser Schleife der Kreuzvalidierung auf den Holdout-Sets erstellt wurden. Stattdessen geht es darum, wie viel Variabilität Ihr letztendlich ausgewähltes Modell (das über LOOCV ausgewählte) haben würde, wenn Sie das genaue Modell / die genauen Parameter in neuen Trainingssätzen trainieren würden - Trainingssätze, die Ihr Modell noch nicht gesehen hat. In diesem Fall wäre die Variabilität hoch.

Warum sollte die Variabilität hoch sein? Vereinfachen wir dies ein wenig. Anstatt mit LOOCV ein Modell auszuwählen, haben Sie nur einen Trainingssatz erstellt und dann ein Modell getestet, das mit diesen Trainingsdaten erstellt wurde, z. B. 100-mal mit 100 einzelnen Testdatenpunkten (Datenpunkte sind nicht Teil des Trainingssatzes). . Wenn Sie das Modell und den Parametersatz auswählen, die für diese 100 Tests am besten geeignet sind, wählen Sie einen aus, der es diesem speziellen Trainingssatz ermöglicht, die Testdaten wirklich gut vorherzusagen. Sie können möglicherweise ein Modell auswählen, das 100% der Zuordnungen zwischen diesem bestimmten Trainingsdatensatz und den Holdout-Daten erfasst. Leider handelt es sich bei einem Teil dieser Assoziationen zwischen den Trainings- und Testdatensätzen um Rauschen oder falsche Assoziationen, da sich der Testsatz zwar ändert und Sie Rauschen auf dieser Seite identifizieren können. Im Trainingsdatensatz ist dies nicht der Fall, und Sie können nicht feststellen, welche erklärten Abweichungen auf Rauschen zurückzuführen sind. Mit anderen Worten, dies bedeutet, dass Sie Ihre Vorhersagen für diesen bestimmten Trainingsdatensatz übertroffen haben.

Was würde passieren, wenn Sie dieses Modell mehrmals mit denselben Parametern auf neuen Trainingssätzen trainieren würden? Nun, ein Modell, das zu einem bestimmten Satz von Trainingsdaten überangepasst ist, führt zu einer Variabilität in seiner Vorhersage, wenn sich der Trainingssatz ändert (dh, wenn sich der Trainingssatz geringfügig ändert und das Modell seine Vorhersagen wesentlich ändert).

Da alle Falten in LOOCV stark korreliert sind, ähnelt es dem obigen Fall (gleicher Trainingssatz; verschiedene Testpunkte). Mit anderen Worten, wenn dieser bestimmte Trainingssatz eine falsche Korrelation mit diesen Testpunkten aufweist, hat Ihr Modell Schwierigkeiten zu bestimmen, welche Korrelationen real und welche falsch sind, da der Trainingssatz sich zwar ändert, dies jedoch nicht tut.

Im Gegensatz dazu bedeutet weniger korrelierte Trainingsfalten, dass das Modell an mehrere eindeutige Datensätze angepasst werden kann. Wenn Sie also in dieser Situation das Modell in einem anderen neuen Datensatz neu trainieren, führt dies zu einer ähnlichen Vorhersage (dh zu einer geringen Variabilität).

captain_ahab
quelle
4
Ich denke, diese Antwort verdeutlicht viel mehr als die akzeptierte Antwort und erklärt insbesondere die akzeptierte Antwort.
D1X
Was meinen Sie mit> "Was würde passieren, wenn Sie dieses Modell bei neuen Trainingssätzen mehrmals mit denselben Parametern neu trainieren würden?". Training bedeutet, die Parameter zu finden, oder? Wollten Sie Hyperparameter sagen?
MiloMinderbinder
14

Obwohl diese Frage ziemlich alt ist, möchte ich eine zusätzliche Antwort hinzufügen, da ich der Meinung bin, dass es sich lohnt, dies etwas näher zu erläutern.

Meine Frage ist zum Teil durch diesen Thread motiviert: Optimale Anzahl von Falzen bei der K-Falz-Kreuzvalidierung: Ist ein auslassender Lebenslauf immer die beste Wahl? . Die dortige Antwort legt nahe, dass Modelle, die mit einer einmaligen Kreuzvalidierung erlernt wurden, eine höhere Varianz aufweisen als Modelle, die mit einer regulären K-fach Kreuzvalidierung erlernt wurden, was einen einmaligen Lebenslauf zu einer schlechteren Wahl macht.

Diese Antwort legt dies nicht nahe und sollte es auch nicht. Sehen wir uns die dort bereitgestellte Antwort an:

Eine ausschließliche Kreuzvalidierung führt im Allgemeinen nicht zu einer besseren Leistung als die K-fache und ist mit größerer Wahrscheinlichkeit schlechter, da sie eine relativ hohe Varianz aufweist (dh, ihr Wert ändert sich für verschiedene Datenstichproben stärker als der Wert für k-fache Kreuzvalidierung).

Es geht um Leistung . Unter Leistung ist hier die Leistung des Modellfehlerschätzers zu verstehen . Was Sie mit k-fach oder LOOCV schätzen, ist die Modellleistung, sowohl bei Verwendung dieser Techniken zur Auswahl des Modells als auch zur Bereitstellung einer Fehlerschätzung an sich. Dies ist NICHT die Modellvarianz, sondern die Varianz des Schätzers des Fehlers (des Modells). Siehe das Beispiel (*) unten.

Meine Intuition sagt mir jedoch, dass man im ausgelassenen Lebenslauf eine relativ geringere Varianz zwischen den Modellen sehen sollte als im K-fach Lebenslauf, da wir nur einen Datenpunkt über Falten verschieben und daher die Trainingssätze zwischen den Falten erheblich überlappen.

n-2n

Es ist genau diese geringere Varianz und höhere Korrelation zwischen Modellen, die den Schätzer, von dem ich oben spreche, zu einer größeren Varianz macht, da dieser Schätzer der Mittelwert dieser korrelierten Größen ist und die Varianz des Mittelwerts der korrelierten Daten höher ist als die der nicht korrelierten Daten . Hier wird gezeigt, warum: Varianz des Mittelwerts von korrelierten und nicht korrelierten Daten .

Oder in die andere Richtung: Wenn K im K-fachen Lebenslauf niedrig ist, sind die Trainingssätze über die Faltungen hinweg sehr unterschiedlich, und die resultierenden Modelle unterscheiden sich mit größerer Wahrscheinlichkeit (daher höhere Varianz).

Tatsächlich.

Wenn das obige Argument zutrifft, warum würden Modelle, die mit einem einmaligen Lebenslauf erlernt wurden, eine höhere Varianz aufweisen?

Das obige Argument ist richtig. Nun ist die Frage falsch. Die Varianz des Modells ist ein ganz anderes Thema. Es gibt eine Varianz, in der es eine Zufallsvariable gibt. Beim maschinellen Lernen beschäftigen Sie sich mit vielen Zufallsvariablen, insbesondere und nicht beschränkt auf: Jede Beobachtung ist eine Zufallsvariable; Die Stichprobe ist eine Zufallsvariable. Das Modell ist eine Zufallsvariable, da es aus einer Zufallsvariablen trainiert wird. Der Schätzer für den Fehler, den Ihr Modell in Bezug auf die Grundgesamtheit erzeugt, ist eine Zufallsvariable. und nicht zuletzt ist der Fehler des Modells eine Zufallsvariable, da wahrscheinlich Rauschen in der Grundgesamtheit vorhanden ist (dies wird als irreduzibler Fehler bezeichnet). Es kann auch mehr Zufälligkeit geben, wenn der Lernprozess des Modells Stochastizität aufweist. Es ist von größter Bedeutung, zwischen all diesen Variablen zu unterscheiden.


errerrEerr~err~veinr(err~)E(err~-err)veinr(err~)k-fOldk<nerr=10err~1err~2

err~1=0,5,10,20,fünfzehn,5,20,0,10,fünfzehn...
err~2=8.5,9.5,8.5,9.5,8.75,9.25,8.8,9,2 ...

Der letzte, der zwar mehr Verzerrungen aufweist, sollte bevorzugt werden, da er eine viel geringere Varianz und eine akzeptable Verzerrung aufweist, dh einen Kompromiss ( Kompromiss zwischen Verzerrung und Varianz ). Bitte beachten Sie, dass Sie auch keine sehr geringe Varianz wünschen, wenn dies eine hohe Verzerrung mit sich bringt!


Zusätzlicher Hinweis : In dieser Antwort versuche ich, die Missverständnisse zu klären (was ich denke) , die dieses Thema umgeben, und insbesondere zu versuchen, Punkt für Punkt und genau die Zweifel zu beantworten, die der Fragesteller hat. Insbesondere versuche ich zu verdeutlichen, um welche Varianz es sich handelt , worum es hier im Wesentlichen geht. Ich erkläre die Antwort, die durch das OP verbunden ist.

Abgesehen davon haben wir, obwohl ich die theoretische Begründung für diese Behauptung vorlege, noch keine schlüssigen empirischen Beweise gefunden, die diese Behauptung stützen. Also sei bitte sehr vorsichtig.

Im Idealfall sollten Sie diesen Beitrag zuerst lesen und dann auf die Antwort von Xavier Bourret Sicotte verweisen, die eine aufschlussreiche Diskussion über die empirischen Aspekte bietet.

kk-fOldk10 × 10-fOld

D1X
quelle
2
KK
3
kN
KK=10K=N
1
Ich habe diese Papiere noch nicht angeschaut, ich werde sie mir ansehen, wenn ich Zeit habe. Dennoch sind lineare OLS-Modelle sehr einfache Modelle, die sich selbst einer geringen Varianz unterwerfen. Darüber hinaus haben sie Formeln für die Kreuzvalidierung geschlossen.
D1X
1
+1 Ihre Änderungen machen die Antwort viel klarer - wir sind auf den Einfluss der Korrelation zwischen Trainingssätzen ausgerichtet -> höhere Varianz. In der Praxis scheint es jedoch (experimentell), dass die Trainingssätze nicht immer so miteinander korrelieren.
Xavier Bourret Sicotte
12

Die Probleme sind in der Tat subtil. Aber es ist definitiv nicht wahr, dass LOOCV im Allgemeinen eine größere Varianz aufweist. In einem kürzlich erschienenen Papier werden einige Schlüsselaspekte erörtert und mehrere anscheinend weit verbreitete Missverständnisse in Bezug auf die gegenseitige Validierung angesprochen.

Yongli Zhang und Yuhong Yang (2015). Kreuzvalidierung zur Auswahl eines Modellauswahlverfahrens. Journal of Econometrics, vol. 187, 95 & ndash; 112.

In der Literatur werden bis heute häufig folgende Missverständnisse gesehen:

"LOO-CV (Leave-One-Out) hat eine geringere Verzerrung, aber eine größere Varianz als LOO-CV"

Diese Ansicht ist sehr beliebt. Zum Beispiel heißt es in Kohavi (1995, Abschnitt 1): "Zum Beispiel ist das Auslassen von Eins nahezu unvoreingenommen, weist jedoch eine hohe Varianz auf, was zu unzuverlässigen Schätzungen führt." Die Aussage ist jedoch nicht allgemein zutreffend.

Ausführlicher:

In der Literatur, auch unter Einbeziehung neuerer Veröffentlichungen, werden zu viele Empfehlungen ausgesprochen. Der allgemeine Vorschlag von Kohavi (1995), einen 10-fachen Lebenslauf zu verwenden, wurde weithin akzeptiert. Krstajic et al. (2014, Seite 11) stellten beispielsweise fest: „Kohavi [6] und Hastie et al. [4] zeigen empirisch, dass die V-fache Kreuzvalidierung im Vergleich zur ausschließlichen Kreuzvalidierung eine geringere Varianz aufweist.“ Sie befolgen daher bei allen numerischen Untersuchungen die Empfehlung eines 10-fachen Lebenslaufs (mit Wiederholung). Nach unserer Auffassung kann eine solche Praxis irreführend sein. Erstens sollte es keine allgemeine Empfehlung geben, die das Ziel der Verwendung des Lebenslaufs nicht berücksichtigt. Speziell, Die Untersuchung der Verzerrung und der Varianz der CV-Genauigkeitsschätzung eines Kandidatenmodells / Modellierungsverfahrens kann eine sehr unterschiedliche Angelegenheit sein als die optimale Modellauswahl (wobei eines der beiden Ziele der Modellauswahl zuvor angegeben wurde). Zweitens ist die Aussage, auch wenn sie auf den Genauigkeitsschätzungskontext beschränkt ist, im Allgemeinen nicht korrekt. Für Modelle / Modellierungsverfahren mit geringer Instabilität weist LOO häufig die geringste Variabilität auf. Wir haben auch gezeigt, dass bei sehr instabilen Verfahren (z. B. LASSO mit einem pn-Wert, der viel größer als n ist) die 10-fachen oder 5-fachen CVs bei gleichzeitiger Reduzierung der Variabilität einen signifikant größeren MSE-Wert als LOO aufweisen können, da der Bias-Anstieg noch schlimmer ist. Für Modelle / Modellierungsverfahren mit geringer Instabilität weist LOO häufig die geringste Variabilität auf. Wir haben auch gezeigt, dass bei sehr instabilen Verfahren (z. B. LASSO mit einem pn-Wert, der viel größer als n ist) die 10-fachen oder 5-fachen CVs bei gleichzeitiger Reduzierung der Variabilität einen signifikant größeren MSE-Wert als LOO aufweisen können, da der Bias-Anstieg noch schlimmer ist. Bei Modellen / Modellierungsverfahren mit geringer Instabilität weist LOO häufig die geringste Variabilität auf. Wir haben auch gezeigt, dass bei sehr instabilen Verfahren (z. B. LASSO mit einem pn-Wert, der viel größer als n ist) die 10-fachen oder 5-fachen CVs bei gleichzeitiger Reduzierung der Variabilität einen signifikant größeren MSE-Wert als LOO aufweisen können, da der Bias-Anstieg noch schlimmer ist.

Insgesamt sind nach den Abbildungen 3-4 LOO und wiederholte 50- und 20-fache CVs hier am besten, das 10-fache ist signifikant schlechter und k ≤ 5 ist eindeutig schlecht. Für die prädiktive Leistungsschätzung neigen wir dazu, anzunehmen, dass LOO in der Regel das Beste oder eines der Besten für ein festes Modell oder ein sehr stabiles Modellierungsverfahren (wie z. B. BIC in unserem Kontext) ist, und zwar sowohl in Bezug auf die Abweichung als auch in Bezug auf die Varianz oder ziemlich nahe am Besten MSE für ein instabileres Verfahren (wie AIC oder sogar LASSO mit p ≫ n). Zwar kann der 10-fache Lebenslauf (mit Wiederholungen) manchmal der beste sein, aber häufiger ist er in einer ungünstigen Position: Er ist für die Vorhersagefehlerschätzung riskanter als LOO (aufgrund des Bias-Problems) und in der Regel schlechter als Löschen -n / 2 CV zur Identifizierung des besten Kandidaten.

Zack
quelle
4
Ist es möglich, diese Antwort ein wenig zu erweitern, um vielleicht einige der im Papier angesprochenen Schlüsselaspekte zusammenzufassen?
Silverfish
3
Sehr interessantes Papier. Bei der Durchsicht von Kohavi (1995) hatte ich das Gefühl, dass viele Aussagen unglaublich weit gefasst und weitgehend unbegründet waren. Es ist eine volkskundliche Zeitung, deren kritische Befragung längst überfällig ist.
Paul
3

Vor der Erörterung von Voreingenommenheit und Varianz lautet die erste Frage:

Was wird durch Kreuzvalidierung geschätzt?

Kn(K-1)/KKK

K

K

K

Yves Grandvalet
quelle
4
K
0

Ich denke, es gibt eine einfachere Antwort. Wenn Sie k erhöhen, werden die Testsätze immer kleiner. Da die Falten zufällig abgetastet werden, kann es bei kleinen Testsätzen vorkommen, dass sie nicht für ein zufälliges Mischen repräsentativ sind, bei größeren jedoch weniger wahrscheinlich. Ein Testsatz könnte alle schwer vorhersagbaren Aufzeichnungen und ein anderer alle einfachen Aufzeichnungen enthalten. Daher ist die Varianz hoch, wenn Sie sehr kleine Testsätze pro Falte vorhersagen.

David Ernst
quelle
Xich
4
Anscheinend sprechen Sie über die Variabilität der Modellvorhersagen in den Holdout-Sets während der Kreuzvalidierung. Ich denke nicht, dass dies von großem Interesse ist. Was von Interesse ist, ist, ob Ihr endgültig abgestimmtes Modell stark von den Vorhersagen
abweicht,
Und wie würden Sie die erwartete Abweichung von noch nicht sichtbaren Daten einschätzen, wenn nicht die beobachtete Abweichung zwischen nacheinander vorhergesagten Datensätzen, die zu diesem Zeitpunkt unbekannt waren? Ich verstehe jedoch, dass die Variabilität, die sich allein aus dem Versuchsaufbau ergibt, nicht von Interesse ist. Meine Antwort: Daher muss man einen Versuchsaufbau auswählen, der keine neuen Variabilitätsarten einführt. Wenn man dies tut, können die beiden Arten der Variabilität nicht voneinander unterschieden werden, und es wird schwieriger, das Ausmaß der einen Art, die von Interesse ist, abzuschätzen.
David Ernst
1
Sie können dies mit Simulationen zeigen (ich suche ein Papier). Ich bin nicht sicher, ob wir aneinander vorbeigehen - aber wenn Hastie und die Leute über die hohe Korrelation zwischen den Trainingssätzen in LOOCV sprechen, betonen sie, dass Sie Ihr Modell im Grunde auf demselben Trainingsdatensatz trainieren. Dies führt zu einer Überanpassung des Trainingsdatensatzes. Wenn Sie den Trainingsdatensatz ändern, ändern sich die Modellvorhersagen für Testbeispiel X erheblich. Im Gegensatz dazu, wenn Ihre Trainingssätze weniger korreliert sind, können Sie einen völlig neuen Trainingssatz verwenden und Sie erhalten eine ähnliche Vorhersage für
Testbeispiel
Ich denke, es gibt zwei verschiedene Probleme. Das Erhöhen von k führt zu mehr Überlappung zwischen Trainingssätzen, was die von Ihnen erwähnten Konsequenzen hat. (Ich will damit nicht streiten.) Gleichzeitig führt die Erhöhung von k zu kleineren Testsätzen pro Falte, was bedeutet, dass Datensätze in diesen Sätzen mit größerer Wahrscheinlichkeit auf unerwünschte Weise gemischt werden. Ich denke, dass dies für die spezifische gestellte Frage der Hauptgrund ist. Es kann auch zu Überlappungen von Trainingssätzen kommen. (Es gibt ein drittes Problem, wenn Sie Wiederholungen verwenden, da sich dann auch die Testsätze überlappen.)
David Ernst,