Zerlegung der durchschnittlichen quadratischen Verzerrung (in Elemente des statistischen Lernens)

7

Ich kann nicht herausfinden, wie die Formel 7.14 auf Seite 224 von Die Elemente des statistischen Lernens abgeleitet wird. Kann mir jemand helfen, es herauszufinden?

Average squared bias=Average[model bias]2+Average[estimation bias]2

Geben Sie hier die Bildbeschreibung ein

Guyos
quelle
1
Rob J. Hyndman hat einen Beweis in seinem Blog-Beitrag "The Bias-Varianz Decomposition" . Ist es das, wonach Sie suchen? <...> Nachdem ich es mir noch einmal angesehen habe, nein, vielleicht auch nicht.
Richard Hardy

Antworten:

2

Das Ergebnis ist im Wesentlichen auf die Eigenschaft des besten linearen Schätzers zurückzuführen. Beachten Sie, dass wir hier nicht annehmen, dass linear ist. Dennoch können wir den linearen Prädiktor finden , die in etwa die besten.f(X)f

Erinnern Sie sich an die Definition von : . Wir können den theoretischen Schätzer für ableiten : wobei wir angenommen haben, dass invertierbar ist. Ich nenne es theoretischen Schätzer, da wir (in realen Szenarien sowieso) nie die Randverteilung von X oderββ=argminβE[(f(X)XTβ)2]β

g(β)=E[(f(X)XTβ)2]=E[f2(X)]2βTE[Xf(X)]+βTE[XXT]βg(β)β=2E[Xf(X)]+2E[XXT]β=0β=E[XXT]1E[Xf(X)],
E[XXT]P(X)Wir werden diese Erwartungen also nicht kennen. Sie sollten sich immer noch an die Ähnlichkeit dieses Schätzers mit dem ordinären Schätzer der kleinsten Quadrate erinnern (wenn Sie durch ersetzen , ist der OLS-Schätzer der Plugin-äquivalente Schätzer. Am Ende zeige ich, dass sie für die Schätzung des Werts von ), die uns im Grunde einen anderen Weg zur Ableitung des OLS-Schätzers aufzeigt (durch die Theorie großer Zahlen).fyβ

Die LHS von (7.14) kann erweitert werden als:

Ex0[f(x0)Ef^α(x0)]2=Ex0[f(x0)x0Tβ+x0TβEf^α(x0)]2=Ex0[f(x0)x0Tβ]2+Ex0[x0TβEf^α(x0)]2+2Ex0[(f(x0)x0Tβ)(x0TβEf^α(x0))].

Um (7.14) zu zeigen, muss man nur zeigen, dass der dritte Term Null ist, dh

Ex0[(f(x0)x0Tβ)(x0TβEf^α(x0))]=0,

wobei die LHS gleich

LHS=Ex0[(f(x0)x0Tβ)x0Tβ]Ex0[(f(x0)x0Tβ)Ef^α(x0))]

Der erste Term (der Einfachheit ich weggelassen und durch ): wo wir die Varianzidentität verwendet habenx0x

E[(f(x)xTβ)xTβ]=E[f(x)xTβ]E[(xTβ)2]=E[f(x)xT]β(Var[xTβ]+(E[xTβ])2)=E[f(x)xT]β(βTVar[x]β+(βTE[x])2)=E[f(x)xT]β(βT(E[xxT]E[x]E[x]T)β+(βTE[x])2)=E[f(x)xT]βE[f(x)xT]E[xxT]1E[xxT]β+βTE[x]E[x]TββTE[x]E[x]Tβ=0,
Var[z]=E[zzT]E[z]E[z]Tzweimal für den zweiten und vierten Schritt; Wir haben in der vorletzten Zeile eingesetzt und alle anderen Schritte folgen aufgrund der Standarderwartungs- / Varianz-Eigenschaften. Insbesondere ist ein konstanter Vektor für die Erwartung, da er unabhängig davon ist, wo (oder ) gemessen wird.βTβxx0

Der zweite Term wobei die zweite Gleichheit gilt, weil ein Punkt ist- weise Erwartung, wo die Zufälligkeit aus den Trainingsdaten , so dass fest ist; Die dritte Gleichheit gilt, da unabhängig von (

E[(f(x)xTβ)Ef^α(x)]=E[(f(x)xTβ)E[xTβ^α]]=E[E[β^αT]x(f(x)xTβ)]=Eβ^αTE[xf(x)xxTβ]=Eβ^αT(E[xf(x)]E[xxT]E[xxT]1E[xf(x)])=0,
Ef^α(x)yxEβ^αxx0) wird vorhergesagt, so dass es eine Konstante für die äußere Erwartung ist. In Kombination der obigen Ergebnisse ist die Summe dieser beiden Terme Null, was Gleichung (7.14) zeigt.

Obwohl nicht mit der Frage verbunden, ist anzumerken, dass , dh die optimale Regressionsfunktion ist, da Daher ist Wenn wir uns daran erinnern, dass der letzte Schätzer der beste lineare Schätzer ist, sagt uns die obige Gleichung im Grunde , dass Verwendung der optimalen Regressionsfunktion oder der verrauschten Version dasselbe ist wie der Punktschätzer die Sorge. Natürlich ist der Schätzer mitf(X)=E[Y|X]f(X)

f(X)=E[f(X)+ε|X]=E[Y|X].
β=E[XXT]1E[Xf(X)]=E[XXT]1E[XE[Y|X]]=E[XXT]1E[E[XY|X]]=E[XXT]1E[XY],
f(x)yfwird eine bessere Eigenschaft / Effizienz haben , da es zu kleineren Varianz führen, die sich leicht aus dieser Tatsache zu sehen ist stellt zusätzliche Fehler oder Varianz.y

Lei
quelle