Zerlegung der durchschnittlichen quadratischen Verzerrung (in Elemente des statistischen Lernens)

Das Ergebnis ist im Wesentlichen auf die Eigenschaft des besten linearen Schätzers zurückzuführen. Beachten Sie, dass wir hier nicht annehmen, dass linear ist. Dennoch können wir den linearen Prädiktor finden , die in etwa die besten. $f(X)$ $f$

Erinnern Sie sich an die Definition von : . Wir können den theoretischen Schätzer für ableiten : wobei wir angenommen haben, dass invertierbar ist. Ich nenne es theoretischen Schätzer, da wir (in realen Szenarien sowieso) nie die Randverteilung von X oder $\beta_*$ $\beta_{*} = \arg\min_\beta E{[(f(X) - X^T \beta)^2]}$ $\beta_*$

\begin{aligned} g (β) & = E [(f (X) - X^{T} β)^{2}] = E [f^{2} (X)] - 2 β^{T} E [X f (X)] + β^{T} E [X X^{T}] β \\ ⟹ \frac{\partial g (β)}{\partial β} = - 2 E [X f (X)] + 2 E [X X^{T}] β = 0 \\ ⟹ β_{*} = E [X X^{T}]^{- 1} E [X f (X)], \end{aligned}

$\begin{align*} g(\beta) &= E[(f(X) - X^T \beta)^2] = E [f^2(X)] - 2\beta^T E[Xf(X)] + \beta^T E[XX^T]\beta \\ &\implies \frac{\partial{g(\beta)}}{\partial{\beta}} = -2 E{[Xf(X)]} + 2 E[XX^T]\beta = 0 \\ &\implies \beta_{*} = E[X X^T]^{-1}E[X f(X)], \end{align*}$

E [X X^{T}]

$E[X X^T]$

P (X)

$P(X)$ Wir werden diese Erwartungen also nicht kennen. Sie sollten sich immer noch an die Ähnlichkeit dieses Schätzers mit dem ordinären Schätzer der kleinsten Quadrate erinnern (wenn Sie durch ersetzen , ist der OLS-Schätzer der Plugin-äquivalente Schätzer. Am Ende zeige ich, dass sie für die Schätzung des Werts von ), die uns im Grunde einen anderen Weg zur Ableitung des OLS-Schätzers aufzeigt (durch die Theorie großer Zahlen).

f

$f$

y

$y$

β_{*}

$\beta_*$

Die LHS von (7.14) kann erweitert werden als:

\begin{aligned} E_{x_{0}} [f (x_{0}) - E {\hat{f}}_{α} (x_{0})]^{2} & = E_{x_{0}} [f (x_{0}) - x_{0}^{T} β_{*} + x_{0}^{T} β_{*} - E {\hat{f}}_{α} (x_{0})]^{2} \\ = E_{x_{0}} [f (x_{0}) - x_{0}^{T} β_{*}]^{2} + E_{x_{0}} [x_{0}^{T} β_{*} - E {\hat{f}}_{α} (x_{0})]^{2} \\ + 2 E_{x_{0}} [(f (x_{0}) - x_{0}^{T} β_{*}) (x_{0}^{T} β_{*} - E {\hat{f}}_{α} (x_{0}))] . \end{aligned}

$\begin{align*} E_{x_0}[f(x_0) - E{\hat{f}_\alpha (x_0)}]^2 &= E_{x_0}[f(x_0) -x_0^T\beta_{*}+ x_0^T\beta_{*} - E{\hat{f}_\alpha (x_0)}]^2 \\ &= E_{x_0}[f(x_0) - x_0^T\beta_{*}]^2 + E_{x_0}[ x_0^T\beta_{*} - E{\hat{f}_\alpha (x_0)}]^2 \\ &\;\;+ 2 E_{x_0}[(f(x_0) - x_0^T\beta_{*})(x_0^T\beta_{*}-E{\hat{f}_\alpha (x_0)})]. \end{align*}$

Um (7.14) zu zeigen, muss man nur zeigen, dass der dritte Term Null ist, dh

E_{x_{0}} [(f (x_{0}) - x_{0}^{T} β_{*}) (x_{0}^{T} β_{*} - E {\hat{f}}_{α} (x_{0}))] = 0,

$E_{x_0}[(f(x_0) - x_0^T\beta_{*})(x_0^T\beta_{*}-E{\hat{f}_\alpha (x_0)})] = 0,$

wobei die LHS gleich

\begin{aligned} L H S = E_{x_{0}} [(f (x_{0}) - x_{0}^{T} β_{*}) x_{0}^{T} β_{*}] - E_{x_{0}} [(f (x_{0}) - x_{0}^{T} β_{*}) E {\hat{f}}_{α} (x_{0}))] \end{aligned}

$\begin{align*} LHS = E_{x_0}[(f(x_0) - x_0^T\beta_{*})x_0^T\beta_{*}] - E_{x_0}[(f(x_0) - x_0^T\beta_{*})E{\hat{f}_\alpha (x_0)})] \end{align*}$

Der erste Term (der Einfachheit ich weggelassen und durch ): wo wir die Varianzidentität verwendet haben $x_0$ $x$

\begin{aligned} E [(f (x) - x^{T} β_{*}) x^{T} β_{*}] = E [f (x) x^{T} β_{*}] - E [(x^{T} β_{*})^{2}] \\ = E [f (x) x^{T}] β_{*} - (V a r [x^{T} β_{*}] + (E [x^{T} β_{*}])^{2}) \\ = E [f (x) x^{T}] β_{*} - (β_{*}^{T} V a r [x] β_{*} + (β_{*}^{T} E [x])^{2}) \\ = E [f (x) x^{T}] β_{*} - (β_{*}^{T} (E [x x^{T}] - E [x] E [x]^{T}) β_{*} + (β_{*}^{T} E [x])^{2}) \\ = E [f (x) x^{T}] β_{*} - E [f (x) x^{T}] E [x x^{T}]^{- 1} E [x x^{T}] β_{*} + β_{*}^{T} E [x] E [x]^{T} β_{*} \\ - β_{*}^{T} E [x] E [x]^{T} β_{*} \\ = 0, \end{aligned}

$\begin{align} &E{[(f(x) - x^T\beta_{*})x^T\beta_{*}]} = E{[f(x)x^T\beta_*]}- E{[(x^T\beta_*)^2]} \\ &= E[f(x)x^T]\beta_* - \left(Var{[x^T\beta_*]} + (E{[x^T\beta_*]})^2\right) \\ &= E[f(x)x^T]\beta_* - \left( \beta_*^T Var{[x]} \beta_* + (\beta_* ^T E[x])^2\right) \\ &= E[f(x)x^T]\beta_* - \left( \beta_*^T (E[xx^T] - E[x]E[x]^T) \beta_* + (\beta_* ^T E[x])^2\right) \\ &= E[f(x)x^T]\beta_* - E{[f(x)x^T]}E[xx^T]^{-1} E[xx^T]\beta_* + \beta_*^TE[x]E[x]^T \beta_*\\ &\;\;- \beta_*^TE[x]E[x]^T \beta_* \\ &= 0, \end{align}$

V a r [z] = E [z z^{T}] - E [z] E {[z]}^{T}

$Var{[z]} = E{[zz^T]} - E{[z]}E{[z]}^T$ zweimal für den zweiten und vierten Schritt; Wir haben in der vorletzten Zeile eingesetzt und alle anderen Schritte folgen aufgrund der Standarderwartungs- / Varianz-Eigenschaften. Insbesondere ist ein konstanter Vektor für die Erwartung, da er unabhängig davon ist, wo (oder ) gemessen wird.

β_{*}^{T}

$\beta_*^T$

β_{*}

$\beta_*$

x

$x$

x_{0}

$x_0$

Der zweite Term wobei die zweite Gleichheit gilt, weil ein Punkt ist- weise Erwartung, wo die Zufälligkeit aus den Trainingsdaten , so dass fest ist; Die dritte Gleichheit gilt, da unabhängig von (

\begin{aligned} E [(f (x) - x^{T} β_{*}) E {\hat{f}}_{α} (x)] & = E [(f (x) - x^{T} β_{*}) E [x^{T} {\hat{β}}_{α}]] \\ = E [E {[{\hat{β}}_{α}}^{T}] x (f (x) - x^{T} β_{*})] \\ = E {\hat{β}}_{α}^{T} E [x f (x) - x x^{T} β_{*}] \\ = E {\hat{β}}_{α}^{T} (E [x f (x)] - E [x x^{T}] E [x x^{T}]^{- 1} E [x f (x)]) \\ = 0, \end{aligned}

$\begin{align} E{[(f(x) - x^T\beta_{*})E{\hat{f}_\alpha (x)}]} &= E{[(f(x) - x^T\beta_{*}) E{[x^T\hat{\beta}_\alpha]}]} \\ &= E{[E{[\hat{\beta}_\alpha}^T]x (f(x) - x^T\beta_{*})]} \\ &= E{\hat{\beta}_\alpha}^TE{[x f(x) - x x^T\beta_*]} \\ &=E{\hat{\beta}_\alpha}^T\left( E{[x f(x)]} - E[xx^T] E[xx^T]^{-1}E{[xf(x)]}\right)\\ &=0, \end{align}$

E {\hat{f}}_{α} (x)

$E{\hat{f}_\alpha (x)}$

y

$y$

x

$x$

E {\hat{β}}_{α}

$E{\hat{\beta}_\alpha}$

x

$x$

x_{0}

$x_0$ ) wird vorhergesagt, so dass es eine Konstante für die äußere Erwartung ist. In Kombination der obigen Ergebnisse ist die Summe dieser beiden Terme Null, was Gleichung (7.14) zeigt.

Obwohl nicht mit der Frage verbunden, ist anzumerken, dass , dh die optimale Regressionsfunktion ist, da Daher ist Wenn wir uns daran erinnern, dass der letzte Schätzer der beste lineare Schätzer ist, sagt uns die obige Gleichung im Grunde , dass Verwendung der optimalen Regressionsfunktion oder der verrauschten Version dasselbe ist wie der Punktschätzer die Sorge. Natürlich ist der Schätzer mit $f(X) = E[Y|X]$ $f(X)$

f (X) = E [f (X) + ε | X] = E [Y | X] .

$f(X) = E{[f(X) +\varepsilon |X]} = E[Y|X].$

\begin{aligned} β_{*} & = E [X X^{T}]^{- 1} E [X f (X)] = E [X X^{T}]^{- 1} E [X E [Y | X]] \\ = E [X X^{T}]^{- 1} E [E [X Y | X]] \\ = E [X X^{T}]^{- 1} E [X Y], \end{aligned}

$\begin{align} \beta_{*} &= E[XX^T]^{-1}E{[Xf(X)]} = E[XX^T]^{-1}E{[XE[Y|X]]} \\ &= E[XX^T]^{-1}E[E[XY|X]] \\ &= E[XX^T]^{-1}E[XY], \end{align}$

f (x)

$f(x)$

y

$y$

f

$f$ wird eine bessere Eigenschaft / Effizienz haben , da es zu kleineren Varianz führen, die sich leicht aus dieser Tatsache zu sehen ist stellt zusätzliche Fehler oder Varianz.

y

$y$

Lei
quelle

Zerlegung der durchschnittlichen quadratischen Verzerrung (in Elemente des statistischen Lernens)

Antworten: