Ist das Monte-Carlo-Kreuzvalidierungsverfahren gültig?

7

Ich dachte, die K-fache Kreuzvalidierung besteht aus den folgenden Schritten.

  1. Teilen Sie Daten zufällig in Blöcke auf.K
  2. Auf Stücke passen .K1
  3. Sagen Sie den verbleibenden Teil voraus. Halten Sie Vorhersagen.
  4. Wiederholen Sie 2-3 für alle verbleibenden Kombinationen der Chunks, bei denen 1 Chunk weggelassen wird .K1K
  5. Bewerten Sie die Verluststatistik, die alle Vorhersagen mit wahren Werten vergleicht.

Jetzt habe ich ( xbartim dbarts-Paket ) das folgende Verfahren gesehen:

  1. Teilen Sie Daten zufällig in Blöcke auf.K
  2. Auf Stücke passen .K1
  3. Sagen Sie den verbleibenden Teil voraus. Verluststatistik auswerten und behalten.
  4. 1-3 mal wiederholen .N
  5. Durchschnitt der Verluststatistik oder des Pools auf andere Weise.N

Beachten Sie den Unterschied in den Schritten 4 und 5.

Das erste Verfahren ist Standard und wird in wichtigen Lehrbüchern empfohlen. Das zweite Verfahren scheint neu zu sein. Ich kann nicht sofort erkennen, warum ich es nicht tun soll, aber es scheint in Bezug auf die Varianz nicht optimal zu sein. Gibt es Argumente für oder gegen das zweite Verfahren?

Der zweite Ansatz ist in dem oben zitierten Paket implementiert, und ich frage mich, ob dies falsch ist.

Tomka
quelle
2
Wenn Ihr Verlust pro Beobachtung definiert ist (quadratischer Fehler für eine bestimmte Beobachtung), ist der durchschnittliche Verlust in beiden Fällen gleich. Ich frage mich dann, in welchen Situationen Verlust nicht pro Beobachtung definiert wird, sondern eine Funktion eines ganzen Teils von Beobachtungen auf einmal ist. Vielleicht mittlerer Fehler pro Block? Dann müsste man darüber nachdenken, wie sich das zwischen den beiden Szenarien unterscheidet.
Richard Hardy
1
@ Richard Hardy Nicht sicher. Vielleicht verhältnisbasierte Schätzungen wie die Fläche unter der ROC (AUC) -Statistik? Medianer Fehler sicher.
Tomka
@RichardHardy Selbst im einfachen Fall scheint Prozedur 1 die effizienteste zu sein, da (wie im Bootstrap) groß sein muss, um die Varianz der Verlustschätzung zu steuern, und daher weitaus mehr Modellanpassungen erfordert. Oder mache ich irgendwo einen Fehler? N
Tomka
Stellen Sie sich den einfachsten Fall vor: Quadratischer Verlust als Verlustfunktion, 2 Falten und 2 Beobachtungen pro Falte: , und die entsprechenden Prognosefehler . Es spielt keine Rolle, welche Prozedur ich verwende, da ich in beiden Fällen . (x1,1,x1,2)(x21,,x2,2)eijMSE=12(12(e1,12+e1,22)+12(e2,12+e2,22))=14(e1,12+e1,22+e2,12+e2,22)
Richard Hardy
@tomka 1) Verstehe ich richtig, dass der Unterschied in den Punkten 4 und 5 liegt? 2) In welchen Verluststatistiken ist erlaubt xbart? Die Methode ist sicherlich falsch für RMSE, das subadditiv ist.
Jim

Antworten:

5

Kurze Antwort: Es ist weder falsch noch neu.


Wir haben dieses Validierungsschema vor 15 Jahren unter dem Namen "Set Validation" diskutiert, als wir ein Papier * vorbereitet haben, aber am Ende haben wir es nie wirklich erwähnt, da wir es in der Praxis nicht verwendet fanden.

Wikipedia bezieht sich auf dasselbe Validierungsschema wie die wiederholte Validierung von Stichproben oder die Monte-Carlo-Kreuzvalidierung

Aus theoretischer Sicht war das Konzept für uns von Interesse, weil

  • Es handelt sich um eine andere Interpretation derselben Zahlen, die normalerweise als Hold-out bezeichnet werden (nur das Modell, für das die Schätzung verwendet wird, ist unterschiedlich: Hold-out-Schätzungen werden als Leistungsschätzung für genau das getestete Modell verwendet. Dieser Satz oder die Monte-Carlo-Validierung behandelt das getestete Modelle als Ersatzmodelle und interpretiert die gleiche Anzahl wie die Leistungsschätzung für ein Modell, das auf dem gesamten Datensatz basiert - wie dies normalerweise bei Kreuzvalidierungs- oder Out-of-Bootstrap-Validierungsschätzungen der Fall ist).
  • und es ist irgendwo dazwischen
    • häufigere Kreuzvalidierungstechniken (Resampling mit Ersetzung, Interpretation als Schätzung für das Gesamtdatenmodell),
    • Hold-out (siehe oben, gleiche Berechnung + Zahlen, normalerweise ohne N Iterationen / Wiederholungen und unterschiedliche Interpretation)
    • und Out-of-Bootstrap (die N Iterationen / Wiederholungen sind typisch für Out-of-Bootstrap, aber ich habe noch nie gesehen, dass dies auf Hold-Out angewendet wird, und es wird [leider] selten mit Kreuzvalidierung durchgeführt).

* Beleites, C.; Baumgartner, R.; Bowman, C.; Somorjai, R.; Steiner, G.; Salzer, R. & Sowa, MG Varianzreduktion bei der Schätzung von Klassifizierungsfehlern unter Verwendung spärlicher Datensätze, Chemom Intell Lab Syst, 79, 91-100 (2005).
Der Fehler "Validierung einstellen" für N = 1 ist in Abb. 1 ausgeblendet. 6 (dh seine Verzerrung + Varianz kann aus den angegebenen Daten rekonstruiert werden, wird jedoch nicht explizit angegeben.)


aber es scheint in Bezug auf die Varianz nicht optimal zu sein. Gibt es Argumente für oder gegen das zweite Verfahren?

Nun, in der obigen Arbeit haben wir festgestellt, dass der Gesamtfehler (Bias² + Varianz) von Out-of-Bootstrap und wiederholter / iterierter facher Kreuzvalidierung ziemlich ähnlich ist (wobei oob eine etwas geringere Varianz, aber eine höhere Bias aufweist - aber wir haben dies nicht getan Überprüfen Sie anschließend, ob / wie viel von diesem Kompromiss auf ein Resampling mit / ohne Ersatz zurückzuführen ist und wie viel auf das unterschiedliche Aufteilungsverhältnis von etwa 1: 2 für oob zurückzuführen ist.k
Beachten Sie jedoch, dass ich von Genauigkeit in Situationen mit kleiner Stichprobengröße spreche, in denen der dominierende Beitrag zur Varianzunsicherheit für alle Resampling-Schemata gleich ist: die begrenzte Anzahl von echten Stichproben zum Testen und das gleiche für oob , Kreuzvalidierung oder Setvalidierung. Durch Iterationen / Wiederholungen können Sie die Varianz reduzieren, die durch die Instabilität der (Ersatz-) Modelle verursacht wird, nicht jedoch die Varianzunsicherheit aufgrund der begrenzten Gesamtstichprobengröße.
Unter der Annahme, dass Sie eine ausreichend große Anzahl von Iterationen / Wiederholungen N ausführen, würde ich daher keine praktisch relevanten Unterschiede in der Leistung dieser Validierungsschemata erwarten.

Ein Validierungsschema passt jedoch möglicherweise besser zu dem Szenario, das Sie durch das Resampling simulieren möchten.

cbeleites unzufrieden mit SX
quelle