Ich habe einige Daten und möchte aus diesen Daten ein Modell (z. B. ein lineares Regressionsmodell) erstellen. In einem nächsten Schritt möchte ich die Leave-One-Out Cross-Validation (LOOCV) auf das Modell anwenden, um zu sehen, wie gut es funktioniert.
Wenn ich LOOCV richtig verstanden habe, erstelle ich für jede meiner Stichproben (den Testsatz) ein neues Modell, wobei ich jede Stichprobe mit Ausnahme dieser Stichprobe (den Trainingssatz) verwende. Dann benutze ich das Modell, um den Testsatz vorherzusagen und die Fehler zu berechnen .
In einem nächsten Schritt aggregiere ich alle mit einer gewählten Funktion erzeugten Fehler, zum Beispiel den mittleren quadratischen Fehler. Anhand dieser Werte kann ich die Qualität (oder die Passgenauigkeit) des Modells beurteilen.
Frage: Für welches Modell gelten diese Qualitätswerte? Für welches Modell sollte ich mich entscheiden, wenn ich die aus LOOCV generierten Metriken für meinen Fall als geeignet erachte? LOOCV untersuchte verschiedene Modelle (wobei die Stichprobengröße ist); Welches Modell soll ich wählen?
- Verwendet das Modell alle Stichproben? Dieses Modell wurde während des LOOCV-Prozesses nie berechnet!
- Ist es das Modell mit dem geringsten Fehler?
quelle
Antworten:
Es empfiehlt sich, die Kreuzvalidierung als eine Methode zur Schätzung der Generalisierungsleistung von Modellen zu betrachten, die durch eine bestimmte Prozedur generiert wurden, und nicht als Modell selbst. Die ausschließliche Kreuzvalidierung ist im Wesentlichen eine Schätzung der Generalisierungsleistung eines Modells, das an Datenstichproben trainiert wurde. ist im Allgemeinen eine leicht pessimistische Schätzung der Leistung eines Modells, das an Stichproben trainiert wurde .n - 1 n
Anstatt ein Modell auszuwählen, müssen Sie das Modell an alle Daten anpassen und mithilfe von LOO-CV eine leicht konservative Schätzung der Leistung dieses Modells vornehmen.
Beachten Sie jedoch, dass LOOCV eine hohe Varianz aufweist (der Wert, den Sie erhalten, variiert stark, wenn Sie eine andere zufällige Stichprobe von Daten verwenden), was es häufig zu einer schlechten Wahl für den Schätzer für die Leistungsbewertung macht, obwohl es ungefähr unvoreingenommen ist. Ich benutze es die ganze Zeit für die Modellauswahl, aber eigentlich nur, weil es billig ist (fast kostenlos für die Kernelmodelle, an denen ich arbeite).
quelle