Gibt es eine grafische Darstellung des Bias-Varianz-Kompromisses bei der linearen Regression?

18

Ich habe einen Blackout. Ich erhielt das folgende Bild, um den Kompromiss zwischen Bias und Varianz im Kontext der linearen Regression zu veranschaulichen:

Polynommodell für Daten, einfacher und komplexer Fall

Ich kann sehen, dass keines der beiden Modelle gut passt - das "Einfache" schätzt die Komplexität der XY-Beziehung nicht und das "Komplexe" ist einfach überpassend und lernt im Grunde genommen die Trainingsdaten auswendig. Allerdings kann ich die Tendenz und die Varianz in diesen beiden Bildern überhaupt nicht erkennen. Könnte mir jemand das zeigen?

PS: Die Antwort auf die intuitive Erklärung des Bias-Varianz-Kompromisses? hat mir nicht wirklich weitergeholfen, ich würde mich freuen, wenn jemand einen anderen ansatz anhand des obigen bildes liefern könnte.

blubb
quelle

Antworten:

11

Der Bias-Varianz-Kompromiss basiert auf der Aufschlüsselung des mittleren quadratischen Fehlers:

MSE(y^)=E[y-y^]2=E[y-E[y^]]2+E[y^-E[y^]]2

Eine Möglichkeit, den Bias-Varianz-Handel zu sehen, besteht darin, welche Eigenschaften des Datensatzes in der Modellanpassung verwendet werden. Wenn wir für das einfache Modell annehmen, dass die OLS-Regression zur Anpassung der Geraden verwendet wurde, werden nur 4 Zahlen zur Anpassung der Linie verwendet:

  1. Die Sample-Kovarianz zwischen x und y
  2. Die Stichprobenvarianz von x
  3. Der Stichprobenmittelwert von x
  4. Der Stichprobenmittelwert von y

Also, jede grafische Darstellung , die Zuleitungen zu den gleichen vier Zahlen oben auf genau die gleiche angepassten Linie führen (10 Punkte, 100 Punkte, 100 Millionen Punkte). In gewissem Sinne ist es unempfindlich gegenüber der beobachteten Probe. Dies bedeutet, dass es "voreingenommen" ist, da es einen Teil der Daten effektiv ignoriert. Wenn dieser ignorierte Teil der Daten wichtig war, sind die Vorhersagen durchweg fehlerhaft. Sie sehen dies, wenn Sie die angepasste Linie mit allen Daten mit den angepassten Linien vergleichen, die beim Entfernen eines Datenpunkts erhalten wurden. Sie neigen dazu, ziemlich stabil zu sein.

Jetzt verwendet das zweite Modell alle Daten, die es erhalten kann, und passt die Daten so genau wie möglich an. Daher ist die genaue Position jedes Datenpunkts von Bedeutung. Daher können Sie die Trainingsdaten nicht verschieben, ohne das angepasste Modell wie bei OLS zu ändern. Das Modell reagiert daher sehr empfindlich auf das jeweilige Trainingsset, das Sie haben. Das angepasste Modell ist sehr unterschiedlich, wenn Sie dasselbe Diagramm mit Datenpunkten für die erste Ablage erstellen.

Wahrscheinlichkeitslogik
quelle
θ^y^θx,y
y^θ^
θ^bicheins(θ^)=θ-E[θ^]θf(x)=ein+bx+cx2h(x)=d+ex(ein,b,c)(d,e)bicheins(d)bicheins(e)
@loganecolss - dies ist kein Paradox, da der Begriff der Verzerrung nur "lokal" existiert - dh in Bezug auf ein bestimmtes statistisches Modell. Das "Paradoxon" besteht für eine Person, die: 1) das "wahre Modell" kennt und 2) beschließt, es nicht zu verwenden. Diese Person ist ein Idiot in meinem Buch. Wenn Sie das "wahre Modell" nicht kennen, gibt es kein Problem - es sei denn, Sie haben ein gutes Modell gefunden und beschlossen, es nicht zu verwenden ...
Wahrscheinlichkeitsrechnung
1
f(x,z1,z2,,zK)zichK
Wahrscheinlichkeitslogik
5

Um es mit dem, was ich zu wissen glaube, nicht mathematisch zusammenzufassen:

  • Bias - Ihre Vorhersage wird falsch sein, wenn Sie das einfache Modell verwenden, und das wird für jeden Datensatz geschehen, für den Sie das Modell verwenden. Ihre Vorhersage wird voraussichtlich falsch sein
  • Varianz - Wenn Sie das komplexe Modell verwenden, erhalten Sie je nach verwendetem Dataset eine sehr unterschiedliche Vorhersage

Diese Seite hat eine ziemlich gute Erklärung mit Diagrammen ähnlich dem, was Sie gepostet haben. (Ich übersprang das Oberteil aber nur den Teil mit Diagrammen lesen) http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_bias_variance.htm (Mouseover zeigt ein anderes Beispiel, falls Sie nicht bemerkt haben!)

König
quelle
Das ist eine interessante Seite und gute Illustrationen, aber ich finde sie eher verwirrend als hilfreich, weil (a) die im Kontext der Regression diskutierten "Voreingenommenheit" und "Varianz" nicht die Voreingenommenheit und Varianz zu sein scheinen, wie sie zu Beginn definiert wurden Seite und (b) es ist überhaupt nicht klar, dass die getroffenen Aussagen (darüber, wie sich Bias und Varianz mit der Anzahl der Parameter ändern) korrekt sind.
whuber