Der Nachweis von Schrumpfungskoeffizienten mittels Gratregression durch "spektrale Zerlegung"

Die Frage scheint nach einem Nachweis zu fragen, dass die Ridge Regression die Koeffizientenschätzungen unter Verwendung einer spektralen Zerlegung gegen Null schrumpft. Die spektrale Zerlegung kann als einfache Folge der Singular Value Decomposition (SVD) verstanden werden. Daher beginnt dieser Beitrag mit SVD. Es erklärt es in einfachen Worten und veranschaulicht es dann mit wichtigen Anwendungen. Anschließend wird die angeforderte (algebraische) Demonstration bereitgestellt. (Die Algebra ist natürlich identisch mit der geometrischen Demonstration; sie ist lediglich in einer anderen Sprache abgefasst.)

Die ursprüngliche Quelle dieser Antwort finden Sie in meinen Anmerkungen zum Regressionskurs . Diese Version korrigiert einige kleinere Fehler.

Was ist die SVD?

Jede Matrix mit kann geschrieben werden wo $n\times p$ $X$ $p \le n$

X = U D V^{'}

$X = UDV^\prime$

$U$ ist eine Matrix. $n\times p$
- Die Spalten von haben die Länge . $U$ $1$
- Die Spalten von sind zueinander orthogonal. $U$
- Sie werden die Hauptkomponenten von . $X$
$V$ ist eine Matrix. $p \times p$
- Die Spalten von haben die Länge . $V$ $1$
- Die Spalten von sind zueinander orthogonal. $V$
- Dies macht einer Rotation von . $V$ $\mathbb{R}^p$
$D$ ist eine diagonale Matrix. $p \times p$
- Die diagonalen Elemente sind nicht negativ. Dies sind die singulären Werte von . $d_{11}, d_{22}, \ldots, d_{pp}$ $X$
- Wenn wir möchten, können wir sie vom größten zum kleinsten bestellen.

Kriterien (1) und (2) behaupten , dass sowohl und sind orthonormal Matrices. Sie können durch die Bedingungen übersichtlich zusammengefasst werden $U$ $V$

U^{'} U = 1_{p}, V^{'} V = 1_{p} .

$U^\prime U = 1_p,\ V^\prime V = 1_p.$

Infolgedessen (dass eine Drehung darstellt) ist auch . Dies wird in der folgenden Ableitung der Ridge-Regression verwendet. $V$ $VV^\prime = 1_p$

Was es für uns tut

Es kann Formeln vereinfachen. Dies funktioniert sowohl algebraisch als auch konzeptionell. Hier sind einige Beispiele.

Die normalen Gleichungen

Betrachten wir die Regressions wobei, wie üblich, die sind unabhängig und identisch verteilt gemäß einem Gesetz , das Null Erwartung und finite Varianz . Die Lösung der kleinsten Quadrate über die Normalgleichungen ist Das Anwenden der SVD und das Vereinfachen des resultierenden algebraischen Durcheinanders (was einfach ist) bietet einen schönen Einblick: $y = X\beta + \varepsilon$ $\varepsilon$ $\sigma^2$

\hat{β} = (X^{'} X)^{- 1} X^{'} y .

$\hat\beta = (X^\prime X)^{-1} X^\prime y.$

(X^{'} X)^{- 1} X^{'} = ((U D V^{'})^{'} (U D V^{'}))^{- 1} (U D V^{'})^{'} = (V D U^{'} U D V^{'})^{- 1} (V D U^{'}) = V D^{- 2} V^{'} V D U^{'} = V D^{- 1} U^{'} .

$(X^\prime X)^{-1} X^\prime = ((UDV^\prime)^\prime (UDV^\prime))^{-1} (UDV^\prime)^\prime \\= (VDU^\prime U D V^\prime)^{-1} (VDU^\prime) = VD^{-2}V^\prime VDU^\prime = VD^{-1}U^\prime.$

Der einzige Unterschied zwischen diesem und ist , dass die reziproken Werte der Elemente der verwendet werden! In anderen Worten, der „Gleichung“ ist gelöst durch „Invertieren“ : Diese pseudo-Inversion rückgängig macht die Rotationen und (nur durch sie zur Umsetzung) und löst die Multiplikation (dargestellt durch ) getrennt in jeder Haupt Richtung. $X^\prime = VDU^\prime$ $D$ $y=X\beta$ $X$ $U$ $V^\prime$ $D$

Für die Zukunft, bemerkt , dass „gedreht“ schätzt Linearkombinationen von „gedreht“ -Antworten sind . Die Koeffizienten sind Inverse der (positiven) diagonalen Elemente von , gleich . $V^\prime \hat\beta$ $U^\prime y$ $D$ $d_{ii}^{-1}$

Kovarianz der Koeffizientenschätzungen

Recall , dass die Kovarianz der Schätzungen ist Unter Verwendung des SVD wird diese Mit anderen Worten, die Kovarianz verhält sich wie die von orthogonalen Variablen mit jeweils Varianzen

Cov (\hat{β}) = σ^{2} (X^{'} X)^{- 1} .

$\text{Cov}(\hat\beta) = \sigma^2(X^\prime X)^{-1}.$

σ^{2} (V D^{2} V^{'})^{- 1} = σ^{2} V D^{- 2} V^{'} .

$\sigma^2(V D^2 V^\prime)^{-1} = \sigma^2 V D^{-2} V^\prime.$

k

$k$

d_{i i}^{2}

$d^2_{ii}$ , die in

R^{k}

$\mathbb{R}^k$

Die Hutmatrix

H = X (X^{'} X)^{- 1} X^{'} .

$H = X(X^\prime X)^{-1} X^\prime.$

H = (U D V^{'}) (V D^{- 1} U^{'}) = U U^{'} .

$H = (UDV^\prime)(VD^{-1}U^\prime) = UU^\prime.$

Eigenanalyse (spektrale Zerlegung)

X^{'} X = V D U^{'} U D V^{'} = V D^{2} V^{'}

$X^\prime X = VDU^\prime U D V^\prime = VD^2V^\prime$

X X^{'} = U D V^{'} V D U^{'} = U D^{2} U^{'},

$XX^\prime = UDV^\prime VDU^\prime = UD^2U^\prime,$

$X^\prime X$ $XX^\prime$
$V$ $X^\prime X$
$U$ $X X^\prime$

SVD kann Kollinearitätsprobleme diagnostizieren und lösen.

Annäherung an die Regressoren

$UDV^\prime$ $U$ $y$

Ridge Regression

$X$ $y$ $X$ $\lambda \gt 0$

\begin{aligned} {\hat{β}}_{R} & = (X^{'} X + λ)^{- 1} X^{'} y \\ = (V D^{2} V^{'} + λ 1_{p})^{- 1} V D U^{'} y \\ = (V D^{2} V^{'} + λ V V^{'})^{- 1} V D U^{'} y \\ = (V (D^{2} + λ) V^{'})^{- 1} V D U^{'} y \\ = V (D^{2} + λ)^{- 1} V^{'} V D U^{'} y \\ = V (D^{2} + λ)^{- 1} D U^{'} y . \end{aligned}

$\begin{aligned}\hat\beta_R &= (X^\prime X + \lambda)^{-1}X^\prime y \\ &= (VD^2V^\prime + \lambda\,1_p)^{-1}VDU^\prime y \\ &= (VD^2V^\prime + \lambda V V^\prime)^{-1}VDU^\prime y \\ &= (V(D^2 + \lambda)V^\prime)^{-1} VDU^\prime y \\ &= V(D^2+\lambda)^{-1}V^\prime V DU^\prime y \\ &= V(D^2 + \lambda)^{-1} D U^\prime y.\end{aligned}$

$\hat\beta$ $D^{-1} = D^{-2}D$ $(D^2+\lambda)^{-1}D$ $D^2/(D^2+\lambda)$ $\lambda \gt 0$

$V^\prime\hat\beta_R$ $U^\prime y$ $d_{ii}^{-1}$ $d_{ii}^2/(d_{ii}^2 + \lambda)$ $\lambda$ $\hat\beta_R$

$d_{ii}^{-1}$

whuber
quelle

@ Glen_b Das ist ein guter Punkt: Ich musste explizit angeben, welchen Bruch ich in Betracht zog! Ich werde das reparieren.

Whuber

U U^{'} = 1_{p}

$UU^\prime=1_p$

U

$U$

1

$1$

\sqrt{1} = 1

$\sqrt{1}=1$

V V^{'} = 1_{p}

$VV^\prime=1_p$

V

$V$

V^{- 1}

$V^{-1}$

(V^{- 1})^{'} (V^{- 1}) = 1_{p}

$(V^{-1})^\prime(V^{-1})=1_p$

V^{- 1} = V^{'}

$V^{-1}=V^\prime$

V V^{'} = (V^{'})^{'} V^{'} = 1_{p}

$VV^\prime=(V^\prime)^\prime V^\prime=1_p$

@Vimal Danke für den guten Vorschlag. Ich habe jetzt eine Erklärung in den Abschnitt "Normale Gleichungen" eingefügt, in dem das Regressionsmodell eingeführt wird.

whuber

X

$X$

V D U^{'} = X^{'} = X = U D V^{'} .

$VDU^\prime=X^\prime=X=UDV^\prime.$

U = V

$U=V$

X

$X$

\hat{y}

$\hat{y}$