Wenn ich in einer Regressionseinstellung viele Zufallsmodelle (ohne Berücksichtigung der Daten) generiere, indem ich einfach zufällig Koeffizientenwerte zuweise und diese Modelle dann über den Datensatz mit einer Fehlermetrik auswerte und das beste Modell basierend auf dieser Fehlermetrik auswähle, würde ich trotzdem ausführen in Überanpassung?
Irgendwann werden wir die OLS-Lösung haben (siehe Kommentare). Wenn dies der Fall ist, wie unterscheidet sich die Kreuzvalidierung von diesem Verfahren? Zum Beispiel generiere ich in einer Ridge- oder Lasso-Regressionseinstellung immer noch eine Reihe von Modellen (indiziert durch ) und werte sie in einem unsichtbaren Datensegment aus und wähle das beste aus.
Es scheint mir, dass CV gut mit Standard-Regularisierungsmethoden wie Ridge und Lasso funktioniert, weil die erprobten Modelle etwas verschachtelt sind (dh Ridge wird nach Rademacher-Komplexität geordnet). Daher setzt das Prinzip der strukturellen Risikominimierung ein. Ansonsten sieht der Lebenslauf wie eine Sackgasse aus. Wenn wir die Kreuzvalidierung verwenden, um eine Reihe nicht verwandter Modelle zu vergleichen, erhalten wir das oben beschriebene Szenario der zufälligen Modellgenerierung.
Im Rahmen des Rahmens zur Minimierung des strukturellen Risikos, beispielsweise in SVM, wird der Fehler begrenzt und die Komplexität des Modells verringert. Wie erzielt CV tatsächlich den gleichen Effekt, wenn es in Verbindung mit Regularisierungsmethoden angewendet wird? Was tun, wenn verglichene Modelle nicht verschachtelt sind?
quelle
Antworten:
Und wie @amoeba betonte: Ihre Logik ist richtig.
Beachten Sie, dass dieses Modellauswahlverfahren (einschließlich des Lebenslaufs) Teil Ihres Trainings ist , wenn Sie ein Modell basierend auf den Lebenslaufergebnissen auswählen .
Sie müssen eine unabhängige Validierung (statt Verifizierung) dieses endgültigen Modells durchführen (für die Sie erneut einen anderen Lebenslauf als Strategie verwenden können, um Fälle unabhängig vom Training beizubehalten - siehe verschachtelte Kreuzvalidierung), um eine zuverlässige Schätzung des Modells zu erhalten Generalisierungsleistung.
Um es noch einmal zu wiederholen: Das Problem ist nicht der Lebenslauf, das Problem ist die datengesteuerte Modelloptimierung (Auswahl).
Das verstehe ich nicht: Warum sollte sich die unsichtbare Datengröße unterscheiden?
Nein.
Die einzige Eigenschaft von CV, die bei mehreren Tests im Vergleich zu einer einzelnen Aufteilung geringfügig hilfreich ist, besteht darin, dass CV schließlich alle verfügbaren Fälle testet und daher aufgrund der begrenzten Anzahl getesteter Fälle einer etwas geringeren Varianzunsicherheit unterliegt. Dies hilft jedoch nicht viel im Vergleich zur Einschränkung des Suchraums (dh der Einschränkung der Anzahl der Vergleiche).
quelle
BEARBEITEN: Das Optimieren oder Auswählen eines Modells basierend auf einer Kreuzvalidierung versucht im Wesentlichen, den Vorhersagefehler (z. B. einen mittleren quadratischen Vorhersagefehler) zu minimieren. Sie wählen ein Modell aus, das von einer Teilmenge der Eingabedaten abhängig ist, und sagen die Ausgabe an den ausgelassenen Stellen voraus. Intuitiv handelt es sich um eine Vorhersage, da Sie das Modell an Orten außerhalb der Stichprobe bewerten. Ihre Frage ist, was passiert, wenn Ihre Kandidatenmodelle unabhängig von den Eingabedaten sind (dh Sie verwenden keine Daten, wenn Sie zufällig Modelle generieren).
Diese Annahme unterscheidet sich nicht wesentlich von anderen Modellanpassungsverfahren. Wenn ich zum Beispiel mit einem parametrisierten Modell beginne und die Parameter eine beliebige reelle Zahl sein können, habe ich auch eine unendliche Menge von Kandidatenmodellen. Wir müssen beide noch das beste Modell aus dem Satz möglicher Modelle auswählen, indem wir einige Fehlermetriken minimieren. Daher sind unsere beiden Modelloptionen von einigen Trainingsdaten abhängig (möglicherweise eine Teilmenge aller Trainingsdaten, wenn eine Kreuzvalidierung verwendet wird). Sie geben keine Fehlermetrik an. Nehmen wir also an, es handelt sich um einen mittleren quadratischen Fehler (MSE). Ich wähle Modellparameter und damit mein Modell unter Verwendung eines Black-Box-Verfahrens aus, wobei eine von Trainingsdaten abhängige MSE-Metrik angenommen wird. Sie wählen Ihr Modell aus einer Reihe von Zufallsmodellen aus, wobei eine MSE-Metrik unter der Bedingung von Trainingsdaten angenommen wird.
Wählen wir das gleiche Modell? Dies hängt davon ab, ob Sie mit verschiedenen Gruppen von Kandidatenmodellen begonnen haben.
Überpassen wir die Daten? Dies hängt von den Kandidatenmodellen ab, mit denen wir begonnen haben, und von den Trainingsdaten.
Wissen wir, dass wir die Daten überanpassen? Wenn wir eine Kreuzvalidierung durchführen, können wir den Vorhersagefehler überprüfen.
URSPRÜNGLICHE ANTWORT: Im weitesten Sinne enthalten die Daten ein Signal und ein gewisses Rauschen. Wenn wir überanpassen, passen wir im Wesentlichen das Geräusch an.
Bei der Kreuzvalidierung lassen wir Teile der Daten beim Anpassen weg und bewerten den Fehler bei der Vorhersage der ausgelassenen Punkte. Es ist ähnlich wie bei Trainings- und Testdaten, dass wir einen Fehler außerhalb der Stichprobe messen. Das Modell muss gut verallgemeinern, unabhängig davon, welche Punkte weggelassen werden. Wenn wir das Rauschen anpassen, lässt sich das Modell nicht gut verallgemeinern. Der Satz von Modellen, den wir wahrscheinlich vergleichen, enthält nicht diejenigen, die versuchen, einen Datenpunkt zu interpolieren, wenn er in den Trainingsdaten weggelassen wird. Wenn sich das Modell so verhält (z. B. zufälliges Verhalten zur Verbesserung der Anpassung), haben wir wahrscheinlich kein vernünftiges allgemeines Modellanpassungsverfahren, und eine Kreuzvalidierung kann uns nicht helfen.
Wenn Sie eine unendliche Menge von Modellen und eine unendliche Zeit haben, dann könnten Sie theoretisch ein Modell generieren, das genauso gut oder besser ist als jedes Modell, das durch ein anderes Verfahren generiert wurde. Woher wissen Sie, um welches Modell es sich bei Ihrem unendlichen Satz handelt? Wenn es das Modell ist, das die Trainingsdaten interpoliert, wird es ja überanpassen, wenn die Trainingsdaten verrauscht sind.
quelle