Ich habe immer wieder gelesen, dass die Kreuzvalidierung "Auslassen" aufgrund der großen Überlappung der Trainingsfalten eine hohe Varianz aufweist. Ich verstehe jedoch nicht, warum das so ist: Sollte die Leistung der Kreuzvalidierung nicht sehr stabil sein (geringe Varianz), gerade weil die Trainingssätze fast identisch sind? Oder habe ich ein falsches Verständnis des Begriffs "Varianz" insgesamt?
Ich verstehe auch nicht ganz, wie LOO unvoreingenommen sein kann, aber eine hohe Varianz aufweist? Wenn die LOO-Schätzung dem tatsächlichen Erwartungswert des Schätzers entspricht - wie kann sie dann eine hohe Varianz aufweisen?
Anmerkung: Ich weiß, dass es hier eine ähnliche Frage gibt: Warum ist die Abweichung der Auslassungsüberprüfung (LOOCV) von der mittleren Schätzung für Fehler hoch? Jedoch sagt die Person, die geantwortet hat, später in den Kommentaren, dass er trotz der Aufstimmungen erkannt hat, dass seine Antwort falsch ist.
quelle
Antworten:
Diese Frage wird wahrscheinlich als ein Duplikat von Varianz und Verzerrung bei der Kreuzvalidierung abgeschlossen: Warum weist ein ausschließlicher Lebenslauf eine höhere Varianz auf? , aber bevor es passiert, denke ich, dass ich meine Kommentare in eine Antwort verwandeln werde.
Betrachten Sie ein einfaches Beispiel. Der wahre Wert eines Parameters sei . Ein Schätzer, der 0,49 , 0,51 , 0,49 , 0,51 ... ergibt , ist unvoreingenommen und weist eine relativ geringe Varianz auf, aber ein Schätzer, der 0,1 , 0,9 , 0,1 , 0,9 ... ergibt , ist ebenfalls unvoreingenommen, weist jedoch eine viel höhere Varianz auf.0.5 0.49,0.51,0.49,0.51... 0.1,0.9,0.1,0.9...
Sie müssen über die Varianz zwischen verschiedenen Realisierungen des gesamten Datensatzes nachdenken. Bei einem bestimmten Datensatz führt die einmalige Kreuzvalidierung in der Tat zu sehr ähnlichen Modellen für jede Aufteilung, da sich die Trainingssätze so sehr überschneiden (wie Sie richtig bemerkt haben), aber diese Modelle können alle zusammen weit vom tatsächlichen Modell entfernt sein. In allen Datensätzen sind sie weit voneinander entfernt und weisen daher eine hohe Varianz auf.
Zumindest verstehe ich das so. Weitere Informationen finden Sie in den verlinkten Threads und in den referenzierten Artikeln.
quelle
for one particular dataset we can expect a very good estimation
. Ich denke, man kann es so interpretieren, dass die Schätzung einiger datensatzspezifischer Parameter gut sein wird. Im Allgemeinen soll die Kreuzvalidierung einen Populationsparameter abschätzen : Wie gut kann ein bestimmter Modelltyp Vorhersagen über die abhängige Variable in der Population treffen? und wir können keine sehr gute Schätzung von LOOCV erwarten, aufgrund dessen, was Sie geschrieben haben (die Schätzung istvery specific for this particular dataset
).Diese hohe Varianz bezieht sich auf den Raum der Trainingssätze. Hier ist der Grund, warum das LOOCV eine hohe Varianz aufweist: In LOOCV erhalten wir einen Vorhersagefehler für jede Beobachtung, beispielsweise Beobachtung i, wobei der gesamte beobachtete Datensatz mit Ausnahme dieser Beobachtung verwendet wird. Der vorhergesagte Wert für i hängt also stark vom aktuellen Datensatz ab. Nehmen wir nun an, wir beobachten einen anderen unabhängigen Datensatz und passen ein Modell auf diesen neuen Datensatz an. Wenn wir dieses neue Modell verwenden, um einen vorhergesagten Wert für die Beobachtung i zu erhalten, unterscheidet sich der vorhergesagte Wert möglicherweise stark von dem von LOOCV bewerteten (obwohl im Durchschnitt korrekt (unbefangen)).
Dies ist die Intuition hinter der hohen Varianz der Fehlervorhersage in LOOCV.
Wenn Sie jedoch LOOCV verwenden, um Ergebnisse eines Modells mit verschiedenen Hyperparametern zu vergleichen, können Sie meiner Meinung nach LOOCV sicher zum Schätzen von Vorhersagefehlern verwenden, vorausgesetzt, der wahre Wert des Vorhersagefehlers ist nicht von Ihrem Interesse, das heißt, Sie möchten nur Vergleichen Sie verschiedene Modelle mit dem beobachteten Trainingssatz, und Sie interessieren sich nicht für den tatsächlich zu schätzenden Fehler.
Als Faustregel gilt: Wenn Sie eine kleine Stichprobe haben, verwenden Sie LOOCV. Andernfalls verwenden Sie k-fach CV mit einem kleineren Wert für k.
quelle