Berechnung von Vorhersageintervallen bei Verwendung der Kreuzvalidierung

10

Werden Standardabweichungsschätzungen berechnet über:

sN=1Ni=1N(xix¯)2.

( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation )

für Vorhersagegenauigkeiten, die aus einer 10-fachen Kreuzvalidierung entnommen wurden? Ich bin besorgt, dass die zwischen jeder Falte berechnete Vorhersagegenauigkeit aufgrund der erheblichen Überlappung zwischen Trainingssätzen abhängig ist (obwohl die Vorhersagesätze unabhängig sind). Alle Ressourcen, die dies diskutieren, wären sehr hilfreich.

Christopher Dorian
quelle

Antworten:

2

Ich bin besorgt, dass die zwischen jeder Falte berechnete Vorhersagegenauigkeit aufgrund der erheblichen Überlappung zwischen Trainingssätzen abhängig ist (obwohl die Vorhersagesätze unabhängig sind).

IMHO muss die Überlappung zwischen den Trainingssätzen hier kein großes Problem sein. Das heißt, es ist natürlich wichtig zu überprüfen, ob die Modelle stabil sind. Stabil bedeutet, dass die Vorhersagen der Kreuzvalidierungs-Ersatzmodelle äquivalent sind (dh ein unabhängiger Fall würde von allen diesen Modellen die gleiche Vorhersage erhalten), und tatsächlich beansprucht die Kreuzvalidierung normalerweise die Gleichwertigkeit nicht nur zwischen den Ersatzmodellen, sondern auch mit dem auf allen trainierten Modell Fälle. Diese Abhängigkeit ist also eher eine Folge dessen, was wir haben wollen.

Dies gilt für die typische Frage: Wenn ich ein Modell anhand dieser Daten trainiere , wie lauten die Vorhersageintervalle? Wenn die Frage stattdessen lautet: Wenn wir ein Modell für Fälle dieser Population trainieren , wie lauten die Vorhersageintervalle?, Können wir sie nicht beantworten, da diese Überlappung in den Trainingssätzen bedeutet, dass wir die Varianz um einen unbekannten Betrag unterschätzen.n

Was sind die Konsequenzen im Vergleich zum Testen mit einem unabhängigen Testsatz?

  • Kreuzvalidierungsschätzungen können eine höhere Varianz aufweisen als das Testen des endgültigen Modells mit einem unabhängigen Testsatz derselben Größe, da wir zusätzlich zur Varianz aufgrund von Testfällen aufgrund der Instabilität der Ersatzmodelle mit Varianz konfrontiert sind.
  • Wenn die Modelle jedoch stabil sind, ist diese Varianz gering / vernachlässigbar. Darüber hinaus kann diese Art der Stabilität gemessen werden.

  • Was nicht gemessen werden kann, ist, wie repräsentativ der gesamte Datensatz im Vergleich zu der Population ist, aus der er gezogen wurde. Dies schließt einen Teil der Verzerrung des endgültigen Modells ein (jedoch kann auch ein kleiner unabhängiger Testsatz eine Verzerrung aufweisen) und bedeutet, dass die entsprechende Varianz nicht durch Kreuzvalidierung geschätzt werden kann.

  • In der Anwendungspraxis (Leistung des auf diesen Daten trainierten Modells ) würde die Vorhersageintervallberechnung auf Probleme stoßen, die meiner Meinung nach wichtiger sind als der Teil der Varianzkreuzvalidierung, der nicht erkannt werden kann: z

    • Die Kreuzvalidierung kann die Leistung nicht für zeitlich unabhängige Fälle testen (Vorhersagen sind normalerweise für Fälle erforderlich, die in der Zukunft gemessen werden).
    • Die Daten können unbekannte Cluster enthalten, und die Leistung außerhalb des Clusters kann wichtig sein. Clustered-Daten sind im Prinzip etwas, das Sie bei der Kreuzvalidierung berücksichtigen können, aber Sie müssen über das Clustering Bescheid wissen.

    Dies ist mehr als nur eine Kreuzvalidierung im Vergleich zu einem unabhängigen Testsatz: Grundsätzlich müssten Sie sich hinsetzen und eine Validierungsstudie entwerfen, da sonst ein hohes Risiko besteht, dass der "unabhängige" Testsatz nicht allzu unabhängig ist. Sobald dies erledigt ist, kann man darüber nachdenken, welche Faktoren wahrscheinlich von praktischer Bedeutung sind und welche vernachlässigt werden können. Sie können zu dem Schluss kommen, dass eine Kreuzbewertung nach eingehender Prüfung gut genug und sinnvoll ist, da die unabhängige Validierung im Vergleich zum möglichen Informationsgewinn viel zu teuer wäre.

Alles in allem würde ich die übliche Formel für die Standardabweichung verwenden, sie in Analogie zu nennen und detailliert berichten, wie die Tests durchgeführt wurden. R M S E C V.sCVRMSECV

cbeleites unzufrieden mit SX
quelle