Frage zum Bias-Varianz-Kompromiss

15

Ich versuche den Bias-Varianz-Kompromiss, die Beziehung zwischen dem Bias des Schätzers und dem Bias des Modells und die Beziehung zwischen der Varianz des Schätzers und der Varianz des Modells zu verstehen.

Ich bin zu folgenden Schlussfolgerungen gekommen:

  • Wir neigen dazu, die Daten zu überdecken, wenn wir die Abweichung des Schätzers vernachlässigen, dh wenn wir nur die Abweichung des Modells unter Vernachlässigung der Abweichung des Modells minimieren möchten (mit anderen Worten, wir versuchen nur, die Abweichung des Schätzers zu minimieren, ohne dies zu berücksichtigen) die Vorspannung des Schätzers auch)
  • Umgekehrt neigen wir dazu, die Daten zu unterschätzen, wenn wir die Varianz des Schätzers vernachlässigen, dh wenn wir nur die Varianz des Modells unter Vernachlässigung der Verzerrung des Modells minimieren wollen (mit anderen Worten, wir wollen nur die Verzerrung des Schätzers minimieren) Schätzer ohne Berücksichtigung der Varianz des Schätzers).

Sind meine Schlussfolgerungen richtig?

John M
quelle
John, ich denke, Sie werden diesen Artikel von Tal Yarkoni und Jacob Westfall gerne lesen - er bietet eine intuitive Interpretation des Bias-Varianz-Kompromisses: jakewestfall.org/publications/… .
Isabella Ghement

Antworten:

21

Naja, so ungefähr. Wie bereits erwähnt, schreiben Sie dem Wissenschaftler die Absicht zu, entweder Verzerrung oder Varianz zu minimieren. In der Praxis können Sie die Abweichung oder die Varianz Ihres Modells nicht explizit beobachten (wenn Sie könnten, würden Sie das wahre Signal kennen, in welchem ​​Fall Sie kein Modell benötigen würden). Im Allgemeinen können Sie die Fehlerrate Ihres Modells nur für einen bestimmten Datensatz beobachten und versuchen, die Fehlerrate außerhalb der Stichprobe mithilfe verschiedener kreativer Techniken zu schätzen.

Jetzt können Sie noch wissen , dass, zumindest theoretisch, diese Fehlerrate in Bias und Varianz Bedingungen zerlegt werden kann, aber man kann nicht direkt diese Balance in einer bestimmten konkreten Situation beobachten. Daher möchte ich Ihre Beobachtungen leicht wiederholen als:

  • Ein Modell passt nicht zu den Daten, wenn der Verzerrungsterm den größten Teil der Fehler außerhalb der Stichprobe ausmacht.
  • Ein Modell passt zu den Daten, wenn der Varianzausdruck den größten Teil der Fehler außerhalb der Stichprobe ausmacht.

Im Allgemeinen gibt es keine wirkliche Möglichkeit, dies genau zu wissen, da Sie die Modellverzerrung nie wirklich beobachten können. Dennoch gibt es verschiedene Verhaltensmuster, die auf die eine oder andere Situation hinweisen:

  • Overfit-Modelle weisen in der Regel eine viel schlechtere Anpassungsleistung in einem Testdatensatz als in einem Trainingsdatensatz auf.
  • Underfit-Modelle tendieren dazu, eine ähnliche Anpassungsgüte für einen Test- oder Trainingsdatensatz zu haben.

Dies sind die Muster, die sich in den berühmten Plots der Fehlerraten nach Modellkomplexität manifestieren. Diese stammen aus den Elementen des statistischen Lernens:

modelComplexity

Oftmals werden diese Diagramme mit einer Bias- und Varianzkurve überlagert. Ich habe diesen von dieser schönen Ausstellung genommen :

Bildbeschreibung hier eingeben

Aber es ist sehr wichtig zu erkennen , dass man nie wirklich bekommen sieht diese zusätzliche Kurven in jeder realistischen Situation.

Matthew Drury
quelle
4

Veranschaulichung des Bias - Varianz - Kompromisses anhand eines Spielzeugbeispiels

Wie @Matthew Drury ausführt, wird in realistischen Situationen das letzte Diagramm nicht angezeigt. Das folgende Spielzeugbeispiel kann jedoch für diejenigen, die es hilfreich finden, eine visuelle Interpretation und Intuition darstellen.

Datensatz und Annahmen

Y.

  • Y.=sichn(πx-0,5)+ϵϵUnichfÖrm(-0,5,0,5)
  • Y.=f(x)+ϵ

xY.Veinr(Y.)=Veinr(ϵ)=112

f^(x)=β0+β1x+β1x2+...+βpxp

Passend für verschiedene Polynommodelle

Intuitiv würde man erwarten, dass eine gerade Kurve schlecht abschneidet, da der Datensatz eindeutig nicht linear ist. Ebenso kann die Anpassung eines Polynoms sehr hoher Ordnung übermäßig sein. Diese Intuition spiegelt sich in der folgenden Grafik wider, in der die verschiedenen Modelle und ihre entsprechenden mittleren quadratischen Fehler für Zug- und Testdaten dargestellt sind.

Bildbeschreibung hier eingeben

Das obige Diagramm funktioniert für einen einzelnen Zug / Test-Split, aber woher wissen wir, ob es verallgemeinert wird?

Schätzen Sie den erwarteten Zug und testen Sie MSE

Hier haben wir viele Möglichkeiten, aber ein Ansatz besteht darin, die Daten nach dem Zufallsprinzip zwischen Zug / Test aufzuteilen - passen Sie das Modell an die angegebene Aufteilung an und wiederholen Sie dieses Experiment viele Male. Die resultierende MSE kann aufgezeichnet werden und der Durchschnitt ist eine Schätzung des erwarteten Fehlers.

Bildbeschreibung hier eingeben

Es ist interessant zu sehen, dass die Test-MSE für verschiedene Zug- / Test-Aufteilungen der Daten stark schwankt. Wenn wir jedoch den Durchschnitt aus einer ausreichend großen Anzahl von Experimenten nehmen, gewinnen wir mehr Vertrauen.

Y.

 Bias - Varianzzerlegung

Wie hier erläutert , kann die MSE in drei Hauptkomponenten unterteilt werden:

E[(Y.-f^)2]=σϵ2+Bicheins2[f^]+Veinr[f^]
E[(Y.-f^)2]=σϵ2+[f-E[f^]]2+E[f^-E[f^]]2

Wo in unserer Spielzeugkiste:

  • f
  • σϵ2ϵ
  • E[f^]
  • f^
  • E[f^-E[f^]]2

Geben Sie die folgende Beziehung an

Bildbeschreibung hier eingeben

Hinweis: Die obige Grafik verwendet die Trainingsdaten, um sie an das Modell anzupassen, und berechnet dann die MSE bei Zug + Test .

Xavier Bourret Sicotte
quelle