Hohe Varianz der einmaligen Kreuzvalidierung

15

Ich habe immer wieder gelesen, dass die Kreuzvalidierung "Auslassen" aufgrund der großen Überlappung der Trainingsfalten eine hohe Varianz aufweist. Ich verstehe jedoch nicht, warum das so ist: Sollte die Leistung der Kreuzvalidierung nicht sehr stabil sein (geringe Varianz), gerade weil die Trainingssätze fast identisch sind? Oder habe ich ein falsches Verständnis des Begriffs "Varianz" insgesamt?

Ich verstehe auch nicht ganz, wie LOO unvoreingenommen sein kann, aber eine hohe Varianz aufweist? Wenn die LOO-Schätzung dem tatsächlichen Erwartungswert des Schätzers entspricht - wie kann sie dann eine hohe Varianz aufweisen?

Anmerkung: Ich weiß, dass es hier eine ähnliche Frage gibt: Warum ist die Abweichung der Auslassungsüberprüfung (LOOCV) von der mittleren Schätzung für Fehler hoch? Jedoch sagt die Person, die geantwortet hat, später in den Kommentaren, dass er trotz der Aufstimmungen erkannt hat, dass seine Antwort falsch ist.

Pegah
quelle
2
Ich bin diese Person :-) aber bitte beachte, dass ich erstens meine Antwort bereits vor einiger Zeit aktualisiert habe, um die Verwirrung zu beseitigen, und zweitens, dass der gesamte Thread als Duplikat eines anderen Threads geschlossen ist: stats.stackexchange.com/ Fragen / 61783 . Hast du dort geschaut? Dein Q scheint mir auch ein Duplikat davon zu sein. Wenn Sie mit der dort gegebenen Antwort nicht zufrieden sind, sollten Sie Ihre Frage genauer formulieren. Im Moment werde ich für den Abschluss stimmen, aber Sie können Ihr Q.
amoeba gerne
3
Das ist ganz einfach: Der wahre Wert eines Parameters sei . Ein Schätzer, der ergibt ist unvoreingenommen und weist eine relativ geringe Varianz auf, aber ein Schätzer, der ergibt ist ebenfalls unvoreingenommen, weist jedoch eine viel höhere Varianz auf. 0.50.49,0.51,0.49,0.51...0.1,0.9,0.1,0.9...
Amöbe sagt Reinstate Monica
5
In Bezug auf Ihren ersten Absatz: Sie müssen über die Varianz zwischen verschiedenen Realisierungen des gesamten Datensatzes nachdenken . Für einen gegebenen Datensatz erzeugt LOOCV in der Tat sehr ähnliche Modelle für jede Aufteilung, da sich die Trainingssätze so sehr überschneiden (wie Sie sagten), aber diese Modelle können alle zusammen weit vom wahren Modell entfernt sein. Über Datensätze hinweg sind sie in verschiedene Richtungen weit entfernt, was zu einer hohen Varianz führt. So verstehe ich es qualitativ.
Amöbe sagt Reinstate Monica
2
@amoeba, warum machst du diese Kommentare nicht zu einer offiziellen Antwort?
gung - Wiedereinsetzung von Monica

Antworten:

10

Diese Frage wird wahrscheinlich als ein Duplikat von Varianz und Verzerrung bei der Kreuzvalidierung abgeschlossen: Warum weist ein ausschließlicher Lebenslauf eine höhere Varianz auf? , aber bevor es passiert, denke ich, dass ich meine Kommentare in eine Antwort verwandeln werde.

Ich verstehe auch nicht ganz, wie LOO unvoreingenommen sein kann, aber eine hohe Varianz aufweist?

Betrachten Sie ein einfaches Beispiel. Der wahre Wert eines Parameters sei . Ein Schätzer, der 0,49 , 0,51 , 0,49 , 0,51 ... ergibt , ist unvoreingenommen und weist eine relativ geringe Varianz auf, aber ein Schätzer, der 0,1 , 0,9 , 0,1 , 0,9 ... ergibt , ist ebenfalls unvoreingenommen, weist jedoch eine viel höhere Varianz auf.0.50.49,0.51,0.49,0.51...0.1,0.9,0.1,0.9...

Sollte die Leistung der Kreuzvalidierung nicht gerade deshalb sehr stabil sein (geringe Varianz), weil die Trainingssätze nahezu identisch sind?

Sie müssen über die Varianz zwischen verschiedenen Realisierungen des gesamten Datensatzes nachdenken. Bei einem bestimmten Datensatz führt die einmalige Kreuzvalidierung in der Tat zu sehr ähnlichen Modellen für jede Aufteilung, da sich die Trainingssätze so sehr überschneiden (wie Sie richtig bemerkt haben), aber diese Modelle können alle zusammen weit vom tatsächlichen Modell entfernt sein. In allen Datensätzen sind sie weit voneinander entfernt und weisen daher eine hohe Varianz auf.

Zumindest verstehe ich das so. Weitere Informationen finden Sie in den verlinkten Threads und in den referenzierten Artikeln.

Amöbe sagt Reinstate Monica
quelle
2
So wie ich es verstehe, ist eine geringe Verzerrung gegeben, weil der Trainingssatz sehr groß ist - fast identisch mit dem gesamten Datensatz (da nur eine Datenprobe zum Testen ausgelassen wird). Für einen bestimmten Datensatz können wir also eine sehr gute Schätzung erwarten. Aufgrund dieser hohen Korrelation der Falten (die Kreuzvalidierung wird bei identischen Daten in ihren Iterationen beinahe durchgeführt) ist die Schätzung jedoch auch für diesen bestimmten Datensatz sehr spezifisch, was zu einer hohen Varianz zwischen der Leistung bei verschiedenen Datensätzen aus derselben zugrunde liegenden Verteilung führt . Richtig?
Pegah
2
Ich denke, es ist größtenteils richtig, aber das sollte man vorsichtig sagen for one particular dataset we can expect a very good estimation. Ich denke, man kann es so interpretieren, dass die Schätzung einiger datensatzspezifischer Parameter gut sein wird. Im Allgemeinen soll die Kreuzvalidierung einen Populationsparameter abschätzen : Wie gut kann ein bestimmter Modelltyp Vorhersagen über die abhängige Variable in der Population treffen? und wir können keine sehr gute Schätzung von LOOCV erwarten, aufgrund dessen, was Sie geschrieben haben (die Schätzung ist very specific for this particular dataset).
Amöbe sagt Reinstate Monica
1
Ich sollte eine Einschränkung hinzufügen, dass dies alles nach meinem derzeitigen Verständnis ist, aber im Allgemeinen finde ich dieses Thema ziemlich schwierig und meine Erfahrung mit der Kreuzvalidierung ist begrenzt. Ich bin kein Experte.
Amöbe sagt Reinstate Monica
1
Darf ich fragen, warum Sie es schwierig finden? Ich bin neugierig, da dies mir etwas darüber beibringen könnte, wo ich beim Lebenslauf vorsichtig sein muss oder wo ich mein Wissen vertiefen kann
Pegah,
2
In Anbetracht der akzeptierten Antwort in diesem Thread müssen Sie in dieser Antwort möglicherweise nicht mehr die hohe Varianz von LOOCV erwähnen, und zwar daher die hohe Varianz ? Ich habe eine Weile über diese Fragen nachgedacht und konnte keinen theoretischen Grund für die hohe Varianz von LOOCV bei kontinuierlichen ("kontinuierlichen"?) Regressionsproblemen finden, obwohl ich Pauls Punkt in den Kommentaren im verknüpften Thread sehe, dass LOOCV fehlschlägt wenn Ihre Probe Duplikate von jedem Punkt enthält.
Richard Hardy
1

Diese hohe Varianz bezieht sich auf den Raum der Trainingssätze. Hier ist der Grund, warum das LOOCV eine hohe Varianz aufweist: In LOOCV erhalten wir einen Vorhersagefehler für jede Beobachtung, beispielsweise Beobachtung i, wobei der gesamte beobachtete Datensatz mit Ausnahme dieser Beobachtung verwendet wird. Der vorhergesagte Wert für i hängt also stark vom aktuellen Datensatz ab. Nehmen wir nun an, wir beobachten einen anderen unabhängigen Datensatz und passen ein Modell auf diesen neuen Datensatz an. Wenn wir dieses neue Modell verwenden, um einen vorhergesagten Wert für die Beobachtung i zu erhalten, unterscheidet sich der vorhergesagte Wert möglicherweise stark von dem von LOOCV bewerteten (obwohl im Durchschnitt korrekt (unbefangen)).

Dies ist die Intuition hinter der hohen Varianz der Fehlervorhersage in LOOCV.

Wenn Sie jedoch LOOCV verwenden, um Ergebnisse eines Modells mit verschiedenen Hyperparametern zu vergleichen, können Sie meiner Meinung nach LOOCV sicher zum Schätzen von Vorhersagefehlern verwenden, vorausgesetzt, der wahre Wert des Vorhersagefehlers ist nicht von Ihrem Interesse, das heißt, Sie möchten nur Vergleichen Sie verschiedene Modelle mit dem beobachteten Trainingssatz, und Sie interessieren sich nicht für den tatsächlich zu schätzenden Fehler.

Als Faustregel gilt: Wenn Sie eine kleine Stichprobe haben, verwenden Sie LOOCV. Andernfalls verwenden Sie k-fach CV mit einem kleineren Wert für k.

Mehdi Rostami
quelle