Ich dachte, die K-fache Kreuzvalidierung besteht aus den folgenden Schritten.
- Teilen Sie Daten zufällig in Blöcke auf.
- Auf Stücke passen .
- Sagen Sie den verbleibenden Teil voraus. Halten Sie Vorhersagen.
- Wiederholen Sie 2-3 für alle verbleibenden Kombinationen der Chunks, bei denen 1 Chunk weggelassen wird .
- Bewerten Sie die Verluststatistik, die alle Vorhersagen mit wahren Werten vergleicht.
Jetzt habe ich ( xbart
im dbarts-Paket ) das folgende Verfahren gesehen:
- Teilen Sie Daten zufällig in Blöcke auf.
- Auf Stücke passen .
- Sagen Sie den verbleibenden Teil voraus. Verluststatistik auswerten und behalten.
- 1-3 mal wiederholen .
- Durchschnitt der Verluststatistik oder des Pools auf andere Weise.
Beachten Sie den Unterschied in den Schritten 4 und 5.
Das erste Verfahren ist Standard und wird in wichtigen Lehrbüchern empfohlen. Das zweite Verfahren scheint neu zu sein. Ich kann nicht sofort erkennen, warum ich es nicht tun soll, aber es scheint in Bezug auf die Varianz nicht optimal zu sein. Gibt es Argumente für oder gegen das zweite Verfahren?
Der zweite Ansatz ist in dem oben zitierten Paket implementiert, und ich frage mich, ob dies falsch ist.
xbart
? Die Methode ist sicherlich falsch für RMSE, das subadditiv ist.Antworten:
Kurze Antwort: Es ist weder falsch noch neu.
Wir haben dieses Validierungsschema vor 15 Jahren unter dem Namen "Set Validation" diskutiert, als wir ein Papier * vorbereitet haben, aber am Ende haben wir es nie wirklich erwähnt, da wir es in der Praxis nicht verwendet fanden.
Wikipedia bezieht sich auf dasselbe Validierungsschema wie die wiederholte Validierung von Stichproben oder die Monte-Carlo-Kreuzvalidierung
Aus theoretischer Sicht war das Konzept für uns von Interesse, weil
* Beleites, C.; Baumgartner, R.; Bowman, C.; Somorjai, R.; Steiner, G.; Salzer, R. & Sowa, MG Varianzreduktion bei der Schätzung von Klassifizierungsfehlern unter Verwendung spärlicher Datensätze, Chemom Intell Lab Syst, 79, 91-100 (2005).
Der Fehler "Validierung einstellen" für N = 1 ist in Abb. 1 ausgeblendet. 6 (dh seine Verzerrung + Varianz kann aus den angegebenen Daten rekonstruiert werden, wird jedoch nicht explizit angegeben.)
Nun, in der obigen Arbeit haben wir festgestellt, dass der Gesamtfehler (Bias² + Varianz) von Out-of-Bootstrap und wiederholter / iterierter facher Kreuzvalidierung ziemlich ähnlich ist (wobei oob eine etwas geringere Varianz, aber eine höhere Bias aufweist - aber wir haben dies nicht getan Überprüfen Sie anschließend, ob / wie viel von diesem Kompromiss auf ein Resampling mit / ohne Ersatz zurückzuführen ist und wie viel auf das unterschiedliche Aufteilungsverhältnis von etwa 1: 2 für oob zurückzuführen ist.k
Beachten Sie jedoch, dass ich von Genauigkeit in Situationen mit kleiner Stichprobengröße spreche, in denen der dominierende Beitrag zur Varianzunsicherheit für alle Resampling-Schemata gleich ist: die begrenzte Anzahl von echten Stichproben zum Testen und das gleiche für oob , Kreuzvalidierung oder Setvalidierung. Durch Iterationen / Wiederholungen können Sie die Varianz reduzieren, die durch die Instabilität der (Ersatz-) Modelle verursacht wird, nicht jedoch die Varianzunsicherheit aufgrund der begrenzten Gesamtstichprobengröße.
Unter der Annahme, dass Sie eine ausreichend große Anzahl von Iterationen / Wiederholungen N ausführen, würde ich daher keine praktisch relevanten Unterschiede in der Leistung dieser Validierungsschemata erwarten.
Ein Validierungsschema passt jedoch möglicherweise besser zu dem Szenario, das Sie durch das Resampling simulieren möchten.
quelle