Ich bin auf diesen Artikel von Gitte Vanwinckelen und Hendrik Blockeel aus dem Jahr 2012 gestoßen, in dem die Nützlichkeit der wiederholten Kreuzvalidierung in Frage gestellt wurde.
Die Autoren haben gezeigt, dass wiederholte Kreuzvalidierungen zwar die Varianz der Modellvorhersagen verringern, der Mittelwert der erneut abgetasteten Kreuzvalidierungsschätzungen jedoch mit einer verzerrten Schätzung der tatsächlichen Vorhersagegenauigkeit konvergiert und daher nicht sinnvoll ist, da derselbe Beispieldatensatz erneut abgetastet wird.
Sollte trotz dieser Einschränkungen eine wiederholte Kreuzvalidierung durchgeführt werden?
cross-validation
RobertF
quelle
quelle
Antworten:
Das Argument, das das Papier zu machen scheint, erscheint mir seltsam.
Dem Papier zufolge besteht das Ziel von CV darin, , die erwartete prädiktive Leistung des Modells, anhand neuer Daten zu schätzen , vorausgesetzt, das Modell wurde anhand des beobachteten Datensatzes S trainiert . Wenn wir führen k -fach CV, wir eine Schätzung erhalten A dieser Zahl. Aufgrund der zufälligen Verteilung von S in k Falten, das ist ein Zufallsvariable A ~ f ( A ) mit einem Mittelwert μ k und die Varianz σ 2 k . Im Gegensatz dazu liefert der n- fach wiederholte CV eine Schätzung mit dem gleichen Mittelwertα2 S k EIN^ S k EIN^∼ f( A ) μk σ2k n aber kleinere Varianz σ 2 k / n .μk σ2k/ n
Offensichtlich ist . Diese Tendenz müssen wir akzeptieren.α2≠ μk
Der erwartete Fehler wird für kleinere größer n , und wird die größte sein für n = 1 , zumindest unter vernünftigen Annahmen über f ( A ) , beispielsweise wenn A ˙ ~ N ( μ k , σ 2 k / n ) . Mit anderen Worten, eine wiederholte CV ermöglicht es, eine genauere Schätzung von μ k zu erhaltenE [ | α2- A^|2] n n = 1 f( A ) EIN^∼˙N( μk, σ2k/ n) μk und es ist eine gute Sache, weil es eine genauere Schätzung von .α2
Daher ist ein wiederholter Lebenslauf genauer als ein nicht wiederholter Lebenslauf.
Die Autoren streiten sich damit nicht! Stattdessen behaupten sie, basierend auf den Simulationen, dass
Dies bedeutet nur, dass in ihren Simulationen ziemlich niedrig war; und tatsächlich war die niedrigste verwendete Stichprobengröße 200 , was wahrscheinlich groß genug ist, um kleine σ 2 k zu ergeben . (Der Unterschied in den Schätzungen, die mit nicht wiederholtem CV und 30-fach wiederholtem CV erhalten werden, ist immer gering.) Bei kleineren Stichprobengrößen ist mit einer größeren Varianz zwischen den Wiederholungen zu rechnen.σ2k 200 σ2k
CAVEAT: Konfidenzintervalle!
Ein weiterer Punkt, den die Autoren ansprechen, ist der folgende
Es scheint, dass sie sich auf Konfidenzintervalle für den Mittelwert über CV-Wiederholungen beziehen. Ich stimme voll und ganz zu, dass dies eine bedeutungslose Sache ist! Je öfter CV wiederholt wird, desto kleiner wird dieser CI sein, aber niemand interessiert sich für den CI um unsere Schätzung von ! Wir kümmern uns um den CI um unsere Schätzung von α 2 .μk α2
Die Autoren berichten auch über CIs für den nicht wiederholten Lebenslauf, und mir ist nicht ganz klar, wie diese CIs konstruiert wurden. Ich denke, dies sind die CIs für die Mittelwerte über die Falten. Ich würde argumentieren, dass diese CIs auch ziemlich bedeutungslos sind!k
Schauen Sie sich eines ihrer Beispiele an: die Genauigkeit desμk
adult
Datensatzes mit dem NB-Algorithmus und der Stichprobengröße 200. Sie erhalten 78,0% bei nicht wiederholtem Lebenslauf, CI (72,26, 83,74), 79,0% (77,21, 80,79) bei 10-fach wiederholtem Lebenslauf und 79,1% (78,07, 80,13) bei 30-fach wiederholtem Lebenslauf. Alle diese CIs sind nutzlos, einschließlich der ersten. Die beste Schätzung von liegt bei 79,1%. Dies entspricht 158 Erfolgen von 200. Dies ergibt ein binomiales Konfidenzintervall von 95% von (72,8, 84,5) - sogar breiter als das erste gemeldete. Wenn ich ein CI melden wollte , ist dies das, was ich melden würde.ALLGEMEINER CAVEAT: Varianz des Lebenslaufs.
Sie haben diesen wiederholten Lebenslauf geschrieben
quelle