Optimism Bias - Schätzungen des Vorhersagefehlers

9

Das Buch Elemente des statistischen Lernens (online als PDF verfügbar) behandelt die optimistische Tendenz (7.21, Seite 229). Es heißt, dass der Optimismus-Bias die Differenz zwischen dem Trainingsfehler und dem In-Sample-Fehler ist (Fehler, der beobachtet wird, wenn an jedem der ursprünglichen Trainingspunkte neue Ergebniswerte abgetastet werden) (siehe unten).

Geben Sie hier die Bildbeschreibung ein

Als nächstes heißt es, dass diese Optimismusverzerrung ( ) gleich der Kovarianz unserer geschätzten y-Werte und der tatsächlichen y-Werte ist (Formel per unten). Ich habe Probleme zu verstehen, warum diese Formel die optimistische Tendenz anzeigt; naiv hätte ich gedacht, dass eine starke Kovarianz zwischen tatsächlichem und vorhergesagtem nur Genauigkeit beschreibt - nicht Optimismus. Lassen Sie mich wissen, ob jemand bei der Ableitung der Formel helfen oder die Intuition teilen kann. ωyy

Geben Sie hier die Bildbeschreibung ein

user1885116
quelle
Sehr hilfreich, danke! Ich denke, eine der Gleichungen hat einen kleinen Tippfehler und sollte sein:=1N.ich=1N.(E.y[yich2]]+E.y[y^ich2]]- -2E.y[yich]]E.y[y^ich]]- -E.y[yich2]]- -E.y[y^ich2]]+2E.[yichy^ich]])
Sleepster

Antworten:

8

Beginnen wir mit der Intuition.

Es ist nichts Falsches daran, mit vorherzusagen . In der Tat würde eine Nichtverwendung bedeuten, dass wir wertvolle Informationen wegwerfen. Aber je mehr wir sind abhängig von den Informationen in enthaltenen mit unserer Vorhersage zu kommen, desto mehr übermäßig optimistisch unser Schätzer sein.y i y iyichy^ichyich

In einem Extremfall, wenn nur , haben Sie eine perfekte Stichprobenvorhersage ( ), aber wir sind uns ziemlich sicher, dass die Vorhersage außerhalb der Stichprobe schlecht sein wird. In diesem Fall (es ist einfach, dies selbst zu überprüfen) sind die Freiheitsgrade .yiR2=1df( y )=ny^ichyichR.2=1df(y^)=n

Wenn Sie andererseits den Stichprobenmittelwert von : für alle , sind Ihre Freiheitsgrade nur 1.y i = ^ y i = ˉ y iyyich=yich^=y¯ich

Weitere Informationen zu dieser Intuition finden Sie in diesem schönen Handzettel von Ryan Tibshirani


Nun ein ähnlicher Beweis wie die andere Antwort, aber mit etwas mehr Erklärung

Denken Sie daran, dass der durchschnittliche Optimismus per Definition ist:

ω=E.y(E.rrichn- -err¯)

=E.y(1N.ich=1N.E.Y.0[L.(Y.ich0,f^(xich)|T.)]]- -1N.ich=1N.L.(yich,f^(xich)))

Verwenden Sie nun eine quadratische Verlustfunktion und erweitern Sie die quadratischen Terme:

=E.y(1N.ich=1N.E.Y.0[(Y.ich0- -y^ich)2]]- -1N.ich=1N.(yich- -y^ich)2))

=1N.ich=1N.(E.yE.Y.0[(Y.ich0)2]]+E.yE.Y.0[y^ich2]]- -2E.yE.Y.0[Y.ich0y^ich]]- -E.y[yich2]]- -E.y[y^ich2]]+2E.[yichy^ich]])

benutze , um zu ersetzen:E.yE.Y.0[(Y.ich0)2]]=E.y[yich2]]

=1N.ich=1N.(E.y[yich2]]+E.y[yich^2]]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])

=2Ni=1N(E[yiy^i]Ey[yi]Ey[y^i])

Beachten Sie zum Schluss, dass , was ergibt:Cov(x,w)=E[xw]E[x]E[w]

=2Ni=1NCov(yi,y^i)
cd98
quelle
5
Ich muss darauf hinweisen, dass sein Name "Ryan Tibshirani" geschrieben ist Rob Tibshirani
Robert Tibshirani
2
Willkommen auf unserer Website, Rob - es ist ein Privileg, Sie hier zu haben, schon allein, um einen Fehler zu korrigieren! Wenn Sie weitere Informationen sehen, teilen Sie uns dies bitte mit. Wir würden uns natürlich über Antworten freuen, die Sie (oder Ihre Schüler) möglicherweise veröffentlichen möchten. Auf Ihre Arbeit wird auf dieser Site ausführlich verwiesen, insbesondere auf ESL und Intro to the Bootstrap.
whuber
erklären ? Außerdem ist ? E.yE.Y.0[(Y.ich0)2]]=E.y[yich2]]2E.yE.Y.0[Y.ich0y^ich]]=2E.y[E.Y.0[Y.ich0]]E.Y.0[y^ich]]]]=2E.y[yich]]E.y[y^ich]]
Shookie
7

Dann seif^(xich)=y^ich

ω=E.y[Öp]]=E.y[E.rrichn- -err¯]]=E.y[E.rrichn]]- -E.y[err¯]]=E.y[1N.ich=1N.E.Y.0[L.(Y.ich0,f^(xich))]]- -E.y[1N.ich=1N.L.(yich,f^(xich))]]=1N.ich=1N.E.yE.Y.0[(Y.ich0- -y^ich)2]]- -E.y[(yich- -y^ich)2]]=1N.ich=1N.E.yE.Y.0[(Y.ich0)2]]+E.yE.Y.0[y^ich2]]- -2E.yE.Y.0[Y.ich0y^ich]]- -E.y[yich2]]- -E.y[y^ich2]]+2E.y[yichy^ich]]=1N.ich=1N.E.y[yich2]]+E.y[y^ich2]]- -2E.y[yich]]E.y[y^ich]]- -E.y[yich2]]- -E.y[y^ich2]]+2E.y[yichy^ich]]=2N.ich=1N.E.y[yichy^ich]]- -E.y[yich]]E.y[y^ich]]=2N.ich=1N.E.y[yichy^ich- -yichE.y[y^ich]]- -E.y[yich]]y^ich+E.y[yich]]E.y[y^ich]]]]=2N.ich=1N.E.y[(y^ich- -E.y[y^ich]])([yich- -E.y[yich]])]]=2N.ich=1N.cÖv(y^ich,yich)
QED
Maciej Lazarewicz
quelle
1
Die letzten vier Schritte können durch diese Eigenschaft der Kovarianz vereinfacht werden:E.[xw]]- -E.[x]]E.[w]]=C.Öv(x,w)
cd98