Sollte eine wiederholte Kreuzvalidierung verwendet werden, um Vorhersagemodelle zu bewerten?

16

Ich bin auf diesen Artikel von Gitte Vanwinckelen und Hendrik Blockeel aus dem Jahr 2012 gestoßen, in dem die Nützlichkeit der wiederholten Kreuzvalidierung in Frage gestellt wurde.

Die Autoren haben gezeigt, dass wiederholte Kreuzvalidierungen zwar die Varianz der Modellvorhersagen verringern, der Mittelwert der erneut abgetasteten Kreuzvalidierungsschätzungen jedoch mit einer verzerrten Schätzung der tatsächlichen Vorhersagegenauigkeit konvergiert und daher nicht sinnvoll ist, da derselbe Beispieldatensatz erneut abgetastet wird.

Sollte trotz dieser Einschränkungen eine wiederholte Kreuzvalidierung durchgeführt werden?

RobertF
quelle
6
Nach meiner Erfahrung ergibt eine (wiederholte oder nicht wiederholte) Kreuzvalidierung keine sehr gute Abschätzung der Vorhersagegenauigkeit. Es ist jedoch sehr nützlich, um die Prognoseleistung verschiedener Modelle zu vergleichen. Es ist eine gute Möglichkeit, zwischen Modellen zu wählen, aber keine gute Möglichkeit, die Leistung eines einzelnen Modells abzuschätzen.
Flunder
@Flounderer Das ist ein guter Punkt. Meine Interpretation des Artikels ist, dass wir keine aussagekräftigen Vergleiche zwischen Modellen auf der Basis wiederholter Kreuzvalidierung und nicht wiederholter Kreuzvalidierung anstellen können. Sie versuchen, eine unzumutbare Menge an Informationen aus den Daten herauszuholen. Oder ist das falsch?
RobertF

Antworten:

11

Das Argument, das das Papier zu machen scheint, erscheint mir seltsam.

Dem Papier zufolge besteht das Ziel von CV darin, , die erwartete prädiktive Leistung des Modells, anhand neuer Daten zu schätzen , vorausgesetzt, das Modell wurde anhand des beobachteten Datensatzes S trainiert . Wenn wir führen k -fach CV, wir eine Schätzung erhalten A dieser Zahl. Aufgrund der zufälligen Verteilung von S in k Falten, das ist ein Zufallsvariable A ~ f ( A ) mit einem Mittelwert μ k und die Varianz σ 2 k . Im Gegensatz dazu liefert der n- fach wiederholte CV eine Schätzung mit dem gleichen Mittelwertα2SkA^SkA^f(A)μkσk2n aber kleinere Varianz σ 2 k / n .μkσk2/n

Offensichtlich ist . Diese Tendenz müssen wir akzeptieren.α2μk

Der erwartete Fehler wird für kleinere größer n , und wird die größte sein für n = 1 , zumindest unter vernünftigen Annahmen über f ( A ) , beispielsweise wenn A ˙ ~ N ( μ k , σ 2 k / n ) . Mit anderen Worten, eine wiederholte CV ermöglicht es, eine genauere Schätzung von μ k zu erhaltenE[|α2A^|2]nn=1f(A)A^˙N(μk,σk2/n)μkund es ist eine gute Sache, weil es eine genauere Schätzung von .α2

Daher ist ein wiederholter Lebenslauf genauer als ein nicht wiederholter Lebenslauf.

Die Autoren streiten sich damit nicht! Stattdessen behaupten sie, basierend auf den Simulationen, dass

Das Reduzieren der Varianz [durch Wiederholen von CV] ist in vielen Fällen nicht sehr nützlich und im Wesentlichen eine Verschwendung von Rechenressourcen.

Dies bedeutet nur, dass in ihren Simulationen ziemlich niedrig war; und tatsächlich war die niedrigste verwendete Stichprobengröße 200 , was wahrscheinlich groß genug ist, um kleine σ 2 k zu ergeben . (Der Unterschied in den Schätzungen, die mit nicht wiederholtem CV und 30-fach wiederholtem CV erhalten werden, ist immer gering.) Bei kleineren Stichprobengrößen ist mit einer größeren Varianz zwischen den Wiederholungen zu rechnen.σk2200σk2

CAVEAT: Konfidenzintervalle!

Ein weiterer Punkt, den die Autoren ansprechen, ist der folgende

Die Meldung von Konfidenzintervallen [bei wiederholter Kreuzvalidierung] ist irreführend.

Es scheint, dass sie sich auf Konfidenzintervalle für den Mittelwert über CV-Wiederholungen beziehen. Ich stimme voll und ganz zu, dass dies eine bedeutungslose Sache ist! Je öfter CV wiederholt wird, desto kleiner wird dieser CI sein, aber niemand interessiert sich für den CI um unsere Schätzung von ! Wir kümmern uns um den CI um unsere Schätzung von α 2 .μkα2

Die Autoren berichten auch über CIs für den nicht wiederholten Lebenslauf, und mir ist nicht ganz klar, wie diese CIs konstruiert wurden. Ich denke, dies sind die CIs für die Mittelwerte über die Falten. Ich würde argumentieren, dass diese CIs auch ziemlich bedeutungslos sind!k

Schauen Sie sich eines ihrer Beispiele an: die Genauigkeit des adultDatensatzes mit dem NB-Algorithmus und der Stichprobengröße 200. Sie erhalten 78,0% bei nicht wiederholtem Lebenslauf, CI (72,26, 83,74), 79,0% (77,21, 80,79) bei 10-fach wiederholtem Lebenslauf und 79,1% (78,07, 80,13) bei 30-fach wiederholtem Lebenslauf. Alle diese CIs sind nutzlos, einschließlich der ersten. Die beste Schätzung von liegt bei 79,1%. Dies entspricht 158 ​​Erfolgen von 200. Dies ergibt ein binomiales Konfidenzintervall von 95% von (72,8, 84,5) - sogar breiter als das erste gemeldete. Wenn ich ein CI melden wollte , ist dies das, was ich melden würde.μk

ALLGEMEINER CAVEAT: Varianz des Lebenslaufs.

Sie haben diesen wiederholten Lebenslauf geschrieben

hat sich zu einer beliebten Technik zur Verringerung der Varianz der Kreuzvalidierung entwickelt.

μkk=Nk

α1S

Amöbe sagt Reinstate Monica
quelle
1
Ich hoffe, dass @cbeleites diesen Thread bemerkt und hier kommentiert oder ihre eigene Antwort hinterlässt: Ich weiß, dass sie häufig wiederholten Lebenslauf verwendet (oder verwendet hat), und ich denke, dass Variabilität über Wiederholungen als ein Maß für Modellstabilität empfohlen wird. Aber ich glaube nicht, dass sie eine CI für Wiederholungen berechnen würde.
Amöbe sagt Reinstate Monica
1
μkα2μkα2μk
1
@RobertF: Ich habe (im Anschluss an das V & B-Papier) über die Schätzung der Modellleistung gesprochen. Meine These ist, dass wiederholter Lebenslauf präziser ist als nicht wiederholter Lebenslauf, und ich halte dies für unzweifelhaft (V & R argumentieren jedoch, dass der Unterschied in der Präzision in der Praxis tendenziell nicht so wichtig ist). Der Vergleich zweier Modelle ist viel schwieriger, da Sie beispielsweise CV ausführen und für ein Modell 70% und für ein anderes Modell 71% erhalten. Ist es ein "signifikanter" Unterschied? Nun, das ist ein kniffliges Problem ohne eine eindeutige Antwort. Und es ist unabhängig von der wiederholten / nicht wiederholten Ausgabe.
Amöbe sagt Reinstate Monica
1
σk