Was ist dieser Bias-Varianz-Kompromiss für Regressionskoeffizienten und wie kann er abgeleitet werden?

9

In diesem ( Bayesianische Inferenz für Varianzkomponenten, die nur Fehlerkontraste verwenden , Harville, 1974) behauptet der Autor als "bekannt" Beziehung ", für eine lineare Regression wobei

(y - X β)^{'} H^{- 1} (y - X β) = (y - X \hat{β})^{'} H^{- 1} (y - X \hat{β}) + (β - \hat{β})^{'} (X^{'} H^{- 1} X) (β - \hat{β})

$(y-X\beta)'H^{-1}(y-X\beta)=(y-X\hat\beta)'H^{-1}(y-X\hat\beta)+(\beta-\hat\beta)'(X'H^{-1}X)(\beta-\hat\beta)$

y = X β + ϵ,

$y=X\beta+\epsilon,$

ϵ \sim N (0, H) .

$\epsilon\sim\mathcal{N}(0, H).$

Wie ist das bekannt? Was ist der einfachste Weg, dies zu beweisen?

regression regression-coefficients heteroscedasticity bias linear-algebra Sibbs Glücksspiel
quelle

1

Es ist auf Wikipedia , siehe 'Ableitung' dort.

user603

@ user603 Stört es Sie, den Link klarer zu machen? Vielen Dank!

Sibbs Gambling

@ user603 Entschuldigung, ich kann nicht wirklich sehen, wie der Link das Problem löst. In meinem Fall lautet die Gleichung für mich Var (y) = Bias + ... Können Sie das näher erläutern?

Sibbs Gambling

4

@SibbsGambling Beachten Sie, dass Ihre Gleichung in dieser Formulierung einer gewichteten linearen Regression zwei varianzbezogene Terme enthält . Der Ausdruck links bezieht sich auf die Varianz um das wahre Modell (gewichtet mit der Präzisionsmatrix ). Der erste Begriff auf der rechten Seite bezieht sich auf die Varianz um angepasste Modelle. Der zweite Term rechts bezieht sich auf das Quadrat der Vorspannung. Das ist der Varianz-Bias-Kompromiss.

H^{- 1}

$H^{-1}$

EdM

6

Der letzte Term in der Gleichung kann wie folgt geschrieben werden

(X β - X \hat{β})^{'} H^{- 1} (X β - X \hat{β}) .

$(X\beta - X\hat{\beta})'H^{-1}(X\beta - X\hat{\beta}).$

In dieser Form sagt die Gleichung etwas Interessantes. Angenommen, ist positiv bestimmt und symmetrisch, so ist es auch umgekehrt. Daher können wir ein inneres Produkt , das uns Geometrie gibt. Dann sagt die obige Gleichheit im Wesentlichen, dass $H$ $<x, y>_{H^{-1}} = x'H^{-1}y$

(X β - X \hat{β}) ⊥ (y - X \hat{β}) .

$(X\beta - X\hat{\beta}) \perp (y - X\hat{\beta}).$

Ich wollte Ihnen diese Intuition geben, da ein Kommentator bereits einen Link zur Ableitung hinterlassen hat.

Edit: Für die Nachwelt

LHS:

\begin{array}{rcl} (y - X β)^{'} H^{- 1} (y - X β) & = & y^{'} H^{- 1} y & - & 2 y^{'} H^{- 1} X β & + & β^{'} X^{'} H^{- 1} X β \\ = & (A) & - & (B) & + & (C) \end{array}

$\begin{eqnarray} (y-X \beta)'H^{-1}(y-X \beta) &=& y'H^{-1}y &-& 2y'H^{-1}X \beta &+& \beta'X'H^{-1}X\beta \\ &=& (A) &-& (B) &+& (C) \end{eqnarray}$

RHS:

(y - X \hat{β})^{'} H^{- 1} (y - X \hat{β}) + (β - \hat{β})^{'} (X^{'} H^{- 1} X) (β - \hat{β})

$(y-X\hat\beta)'H^{-1}(y-X\hat\beta)+(\beta-\hat\beta)'(X'H^{-1}X)(\beta-\hat\beta)$

\begin{array}{rcl} = & y^{'} H^{- 1} y & - 2 y^{'} H^{- 1} X \hat{β} & + {\hat{β}}^{'} X^{'} H^{- 1} X \hat{β} & + β X^{'} H^{- 1} X β & - 2 \hat{β} X^{'} H^{- 1} X β & + {\hat{β}}^{'} X^{'} H^{- 1} X \hat{β} \\ = & (A) & - (D) & + (E) & + (C) & - (F) & + (E) \end{array}

$\begin{eqnarray} &=& y'H^{-1}y &- 2y'H^{-1}X\hat{\beta} &+ \hat{\beta}'X'H^{-1}X\hat{\beta} &+ \beta X'H^{-1}X\beta &- 2\hat{\beta}X'H^{-1}X\beta &+ \hat{\beta}'X'H^{-1}X\hat{\beta} \\ &=& (A) &- (D) &+ (E) &+ (C) &- (F) &+ (E) \end{eqnarray}$

Beziehung:

\hat{β} = (X^{'} H^{- 1} X)^{- 1} X^{'} H^{- 1} y

$\hat{\beta} = (X'H^{-1}X)^{-1}X'H^{-1}y$

Durch Einstecken der Beziehung können Sie zeigen, dass (B) = (F) und dass 2 (E) = (D). Alles erledigt.

jlimahaverford
quelle

Entschuldigung, ich kann nicht wirklich sehen, wie der Link das Problem löst. In meinem Fall lautet die Gleichung für mich Var (y) = Bias + ... Können Sie das näher erläutern?

Sibbs Gambling

@SibbsGambling hat meine Antwort einschließlich Ableitung bearbeitet.

jlimahaverford

@jlimahaverford Vergessen Sie nicht das am Ende der Formel für ?

y

$y$

\hat{β}

$\hat{\beta}$

Gumeo

7

Sie gelangen zu dieser Identität durch eine Technik, die als Vervollständigung des Quadrats bezeichnet wird. Die linke Seite hat eine quadratische Form. Multiplizieren Sie sie daher zunächst

(y - X β)^{'} H^{- 1} (y - X β) = y^{'} H^{- 1} y - 2 y^{'} H^{- 1} X β + β^{'} X^{'} H^{- 1} X β

$(y-X\beta)'H^{-1}(y-X\beta)= y'H^{-1}y - 2y'H^{-1}X\beta + \beta'X'H^{-1} X\beta$

fort und schreiben Sie dann neu in Form von . Die Algebra ist ziemlich lang, aber googeln, um das Quadrat in der Bayes'schen Regression zu vervollständigen, und Sie können viele Hinweise finden. Siehe zum Beispiel die Wikipedia zur linearen Bayes'schen Regression und andere CrossValided-Antworten zum Ausfüllen des Quadrats, wie hier . $\hat{\beta} = (X'H^{-1}X)^{-1}X'H^{-1}y$

bill_e
quelle

2

Wenn Sie Ihre Matrixalgebra kennen, sollte dies möglich sein, indem Sie alles multiplizieren und überprüfen, ob Sie tatsächlich auf beiden Seiten dasselbe haben. Dies hat jlimahaverford gezeigt.

Dazu benötigen Sie die Formel für die Schätzung von . Wir können die Formel auf ähnliche Weise wie für die lineare Regression ableiten, wenn wir nicht korrelierte Fehlerterme haben. Der Trick ist zu standardisieren. $\hat{\beta}$

Hier finden Sie einige Informationen zum Standardisieren eines Wohnmobils, das aus einer multivariaten Normalverteilung stammt. Nehmen wir an, Sie haben ist definitiv positiv, Sie können es also als faktorisieren . Nun kommt die Zufallsvariable aus der Verteilung . Jetzt können wir diesen Trick für unser Problem verwenden, um . Lassen Sie uns faktorisieren . Wir haben Now wurde so standardisiert, dass

X \sim N (μ, Σ) .

$\mathbf{X}\sim \mathcal{N}(\mu,\Sigma).$

Σ

$\Sigma$

Σ = P P^{T}

$\Sigma = PP^T$

Y = P^{- 1} (X - μ)

$\mathbf{Y}=P^{-1}(\mathbf{X}-\mu)$

N (0, I)

$\mathcal{N}(0,I)$

\hat{β}

$\hat{\beta}$

H = P P^{T}

$H=PP^T$

\begin{aligned} y & = X β + ϵ \\ P^{- 1} y & = P^{- 1} X β + P^{- 1} ϵ \end{aligned}

$\begin{align} y&=X\beta+\epsilon\\ P^{-1}y &= P^{-1}X\beta + P^{-1}\epsilon \end{align}$

ϵ

$\epsilon$

cov (P^{- 1} ϵ) = I

$\text{cov}(P^{-1}\epsilon)=I$ , daher können wir dies jetzt als einfaches multiples lineares Regressionsmodell behandeln, wobei: Wir haben also das Regressionsproblem: Die Formel für lautet Dies ist der Schlüssel, den Sie tun müssen Dies ist der Rest der algebraischen Manipulation, die in der Lösung von jlimahaverford demonstriert wurde.

\tilde{X} = P^{- 1} X, \tilde{y} = P^{- 1} y and \tilde{ϵ} = P^{- 1} ϵ .

$\tilde{X}=P^{-1}X,\qquad \tilde{y}=P^{-1}y\quad\text{and}\quad \tilde{\epsilon}=P^{-1}\epsilon.$

\tilde{y} = \tilde{X} β + \tilde{ϵ}

$\tilde{y}=\tilde{X}\beta+\tilde{\epsilon}$

\hat{β}

$\hat{\beta}$

\begin{aligned} \hat{β} & = ({\tilde{X}}^{T} \tilde{X})^{- 1} {\tilde{X}}^{T} \tilde{y} \\ = ((P^{- 1} X)^{T} P^{- 1} X)^{- 1} (P^{- 1} X)^{T} P^{- 1} y \\ = (X^{T} (P P^{T})^{- 1} X)^{- 1} X (P P^{T})^{- 1} y \\ = (X^{T} H^{- 1} X)^{- 1} X H^{- 1} y \end{aligned}

$\begin{align} \hat{\beta} &= (\tilde{X}^T\tilde{X})^{-1}\tilde{X}^T\tilde{y}\\ &=((P^{-1}X)^TP^{-1}X)^{-1}(P^{-1}X)^TP^{-1}y\\ &=(X^T(PP^T)^{-1}X)^{-1}X(PP^T)^{-1}y\\ &=(X^TH^{-1}X)^{-1}XH^{-1}y \end{align}$

Gumeo
quelle

Was ist dieser Bias-Varianz-Kompromiss für Regressionskoeffizienten und wie kann er abgeleitet werden?

Antworten: