Ich versuche den Bias-Varianz-Kompromiss, die Beziehung zwischen dem Bias des Schätzers und dem Bias des Modells und die Beziehung zwischen der Varianz des Schätzers und der Varianz des Modells zu verstehen.
Ich bin zu folgenden Schlussfolgerungen gekommen:
- Wir neigen dazu, die Daten zu überdecken, wenn wir die Abweichung des Schätzers vernachlässigen, dh wenn wir nur die Abweichung des Modells unter Vernachlässigung der Abweichung des Modells minimieren möchten (mit anderen Worten, wir versuchen nur, die Abweichung des Schätzers zu minimieren, ohne dies zu berücksichtigen) die Vorspannung des Schätzers auch)
- Umgekehrt neigen wir dazu, die Daten zu unterschätzen, wenn wir die Varianz des Schätzers vernachlässigen, dh wenn wir nur die Varianz des Modells unter Vernachlässigung der Verzerrung des Modells minimieren wollen (mit anderen Worten, wir wollen nur die Verzerrung des Schätzers minimieren) Schätzer ohne Berücksichtigung der Varianz des Schätzers).
Sind meine Schlussfolgerungen richtig?
Antworten:
Naja, so ungefähr. Wie bereits erwähnt, schreiben Sie dem Wissenschaftler die Absicht zu, entweder Verzerrung oder Varianz zu minimieren. In der Praxis können Sie die Abweichung oder die Varianz Ihres Modells nicht explizit beobachten (wenn Sie könnten, würden Sie das wahre Signal kennen, in welchem Fall Sie kein Modell benötigen würden). Im Allgemeinen können Sie die Fehlerrate Ihres Modells nur für einen bestimmten Datensatz beobachten und versuchen, die Fehlerrate außerhalb der Stichprobe mithilfe verschiedener kreativer Techniken zu schätzen.
Jetzt können Sie noch wissen , dass, zumindest theoretisch, diese Fehlerrate in Bias und Varianz Bedingungen zerlegt werden kann, aber man kann nicht direkt diese Balance in einer bestimmten konkreten Situation beobachten. Daher möchte ich Ihre Beobachtungen leicht wiederholen als:
Im Allgemeinen gibt es keine wirkliche Möglichkeit, dies genau zu wissen, da Sie die Modellverzerrung nie wirklich beobachten können. Dennoch gibt es verschiedene Verhaltensmuster, die auf die eine oder andere Situation hinweisen:
Dies sind die Muster, die sich in den berühmten Plots der Fehlerraten nach Modellkomplexität manifestieren. Diese stammen aus den Elementen des statistischen Lernens:
Oftmals werden diese Diagramme mit einer Bias- und Varianzkurve überlagert. Ich habe diesen von dieser schönen Ausstellung genommen :
Aber es ist sehr wichtig zu erkennen , dass man nie wirklich bekommen sieht diese zusätzliche Kurven in jeder realistischen Situation.
quelle
Veranschaulichung des Bias - Varianz - Kompromisses anhand eines Spielzeugbeispiels
Wie @Matthew Drury ausführt, wird in realistischen Situationen das letzte Diagramm nicht angezeigt. Das folgende Spielzeugbeispiel kann jedoch für diejenigen, die es hilfreich finden, eine visuelle Interpretation und Intuition darstellen.
Datensatz und Annahmen
Passend für verschiedene Polynommodelle
Intuitiv würde man erwarten, dass eine gerade Kurve schlecht abschneidet, da der Datensatz eindeutig nicht linear ist. Ebenso kann die Anpassung eines Polynoms sehr hoher Ordnung übermäßig sein. Diese Intuition spiegelt sich in der folgenden Grafik wider, in der die verschiedenen Modelle und ihre entsprechenden mittleren quadratischen Fehler für Zug- und Testdaten dargestellt sind.
Das obige Diagramm funktioniert für einen einzelnen Zug / Test-Split, aber woher wissen wir, ob es verallgemeinert wird?
Schätzen Sie den erwarteten Zug und testen Sie MSE
Hier haben wir viele Möglichkeiten, aber ein Ansatz besteht darin, die Daten nach dem Zufallsprinzip zwischen Zug / Test aufzuteilen - passen Sie das Modell an die angegebene Aufteilung an und wiederholen Sie dieses Experiment viele Male. Die resultierende MSE kann aufgezeichnet werden und der Durchschnitt ist eine Schätzung des erwarteten Fehlers.
Es ist interessant zu sehen, dass die Test-MSE für verschiedene Zug- / Test-Aufteilungen der Daten stark schwankt. Wenn wir jedoch den Durchschnitt aus einer ausreichend großen Anzahl von Experimenten nehmen, gewinnen wir mehr Vertrauen.
Bias - Varianzzerlegung
Wie hier erläutert , kann die MSE in drei Hauptkomponenten unterteilt werden:
Wo in unserer Spielzeugkiste:
Geben Sie die folgende Beziehung an
Hinweis: Die obige Grafik verwendet die Trainingsdaten, um sie an das Modell anzupassen, und berechnet dann die MSE bei Zug + Test .
quelle