Werden Standardabweichungsschätzungen berechnet über:
( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation )
für Vorhersagegenauigkeiten, die aus einer 10-fachen Kreuzvalidierung entnommen wurden? Ich bin besorgt, dass die zwischen jeder Falte berechnete Vorhersagegenauigkeit aufgrund der erheblichen Überlappung zwischen Trainingssätzen abhängig ist (obwohl die Vorhersagesätze unabhängig sind). Alle Ressourcen, die dies diskutieren, wären sehr hilfreich.
confidence-interval
cross-validation
prediction
prediction-interval
Christopher Dorian
quelle
quelle
Antworten:
IMHO muss die Überlappung zwischen den Trainingssätzen hier kein großes Problem sein. Das heißt, es ist natürlich wichtig zu überprüfen, ob die Modelle stabil sind. Stabil bedeutet, dass die Vorhersagen der Kreuzvalidierungs-Ersatzmodelle äquivalent sind (dh ein unabhängiger Fall würde von allen diesen Modellen die gleiche Vorhersage erhalten), und tatsächlich beansprucht die Kreuzvalidierung normalerweise die Gleichwertigkeit nicht nur zwischen den Ersatzmodellen, sondern auch mit dem auf allen trainierten Modell Fälle. Diese Abhängigkeit ist also eher eine Folge dessen, was wir haben wollen.
Dies gilt für die typische Frage: Wenn ich ein Modell anhand dieser Daten trainiere , wie lauten die Vorhersageintervalle? Wenn die Frage stattdessen lautet: Wenn wir ein Modell für Fälle dieser Population trainieren , wie lauten die Vorhersageintervalle?, Können wir sie nicht beantworten, da diese Überlappung in den Trainingssätzen bedeutet, dass wir die Varianz um einen unbekannten Betrag unterschätzen.n
Was sind die Konsequenzen im Vergleich zum Testen mit einem unabhängigen Testsatz?
Wenn die Modelle jedoch stabil sind, ist diese Varianz gering / vernachlässigbar. Darüber hinaus kann diese Art der Stabilität gemessen werden.
Was nicht gemessen werden kann, ist, wie repräsentativ der gesamte Datensatz im Vergleich zu der Population ist, aus der er gezogen wurde. Dies schließt einen Teil der Verzerrung des endgültigen Modells ein (jedoch kann auch ein kleiner unabhängiger Testsatz eine Verzerrung aufweisen) und bedeutet, dass die entsprechende Varianz nicht durch Kreuzvalidierung geschätzt werden kann.
In der Anwendungspraxis (Leistung des auf diesen Daten trainierten Modells ) würde die Vorhersageintervallberechnung auf Probleme stoßen, die meiner Meinung nach wichtiger sind als der Teil der Varianzkreuzvalidierung, der nicht erkannt werden kann: z
Dies ist mehr als nur eine Kreuzvalidierung im Vergleich zu einem unabhängigen Testsatz: Grundsätzlich müssten Sie sich hinsetzen und eine Validierungsstudie entwerfen, da sonst ein hohes Risiko besteht, dass der "unabhängige" Testsatz nicht allzu unabhängig ist. Sobald dies erledigt ist, kann man darüber nachdenken, welche Faktoren wahrscheinlich von praktischer Bedeutung sind und welche vernachlässigt werden können. Sie können zu dem Schluss kommen, dass eine Kreuzbewertung nach eingehender Prüfung gut genug und sinnvoll ist, da die unabhängige Validierung im Vergleich zum möglichen Informationsgewinn viel zu teuer wäre.
Alles in allem würde ich die übliche Formel für die Standardabweichung verwenden, sie in Analogie zu nennen und detailliert berichten, wie die Tests durchgeführt wurden. R M S E C V.sCV RMSECV
quelle