Der Nachweis von Schrumpfungskoeffizienten mittels Gratregression durch "spektrale Zerlegung"

20

Ich habe verstanden, wie die Gratregression die Koeffizienten geometrisch gegen Null schrumpft. Außerdem weiß ich, wie man das im speziellen "Orthonormalen Fall" beweist, aber ich bin verwirrt, wie das im allgemeinen Fall über "Spektrale Zerlegung" funktioniert.

jeza
quelle
4
Sie haben angegeben, dass Sie verwirrt sind, aber was ist Ihre Frage?
Whuber

Antworten:

30

Die Frage scheint nach einem Nachweis zu fragen, dass die Ridge Regression die Koeffizientenschätzungen unter Verwendung einer spektralen Zerlegung gegen Null schrumpft. Die spektrale Zerlegung kann als einfache Folge der Singular Value Decomposition (SVD) verstanden werden. Daher beginnt dieser Beitrag mit SVD. Es erklärt es in einfachen Worten und veranschaulicht es dann mit wichtigen Anwendungen. Anschließend wird die angeforderte (algebraische) Demonstration bereitgestellt. (Die Algebra ist natürlich identisch mit der geometrischen Demonstration; sie ist lediglich in einer anderen Sprache abgefasst.)

Die ursprüngliche Quelle dieser Antwort finden Sie in meinen Anmerkungen zum Regressionskurs . Diese Version korrigiert einige kleinere Fehler.


Was ist die SVD?

Jede Matrix mit kann geschrieben werden woX p n X = U D V 'n×pXpn

X=UDV
  1. U ist eine Matrix.n×p

    • Die Spalten von haben die Länge .1U1
    • Die Spalten von sind zueinander orthogonal.U
    • Sie werden die Hauptkomponenten von .X
  2. V ist eine Matrix.p×p

    • Die Spalten von haben die Länge .1V1
    • Die Spalten von sind zueinander orthogonal.V
    • Dies macht einer Rotation von .VRp
  3. D ist eine diagonale Matrix.p×p

    • Die diagonalen Elemente sind nicht negativ. Dies sind die singulären Werte von X .d11,d22,,dppX
    • Wenn wir möchten, können wir sie vom größten zum kleinsten bestellen.

Kriterien (1) und (2) behaupten , dass sowohl und V sind orthonormal Matrices. Sie können durch die Bedingungen übersichtlich zusammengefasst werdenUV

UU=1p, VV=1p.

Infolgedessen (dass eine Drehung darstellt) ist auch V V ' = 1 p . Dies wird in der folgenden Ableitung der Ridge-Regression verwendet.VVV=1p

Was es für uns tut

Es kann Formeln vereinfachen. Dies funktioniert sowohl algebraisch als auch konzeptionell. Hier sind einige Beispiele.

Die normalen Gleichungen

Betrachten wir die Regressions wobei, wie üblich, die ε sind unabhängig und identisch verteilt gemäß einem Gesetz , das Null Erwartung und finite Varianz σ 2 . Die Lösung der kleinsten Quadrate über die Normalgleichungen ist β = ( X ' X ) - 1 X ' y . Das Anwenden der SVD und das Vereinfachen des resultierenden algebraischen Durcheinanders (was einfach ist) bietet einen schönen Einblick:y=Xβ+εεσ2

β^=(XX)1Xy.

(XX)1X=((UDV)(UDV))1(UDV)=(VDUUDV)1(VDU)=VD2VVDU=VD1U.

Der einzige Unterschied zwischen diesem und ist , dass die reziproken Werte der Elemente der D verwendet werden! In anderen Worten, der „Gleichung“ y = X β ist gelöst durch „Invertieren“ X : Diese pseudo-Inversion rückgängig macht die Rotationen U und V ' (nur durch sie zur Umsetzung) und löst die Multiplikation (dargestellt durch D ) getrennt in jeder Haupt Richtung.X=VDUDy=XβXUVD

Für die Zukunft, bemerkt , dass „gedreht“ schätzt & beta Linearkombinationen von „gedreht“ -Antworten sind U ' y . Die Koeffizienten sind Inverse der (positiven) diagonalen Elemente von D , gleich d - 1 i i .Vβ^UyDdii1

Kovarianz der Koeffizientenschätzungen

Recall , dass die Kovarianz der Schätzungen ist Unter Verwendung des SVD wird diese σ 2 ( V D 2 V ' ) - 1 = σ 2 V D - 2 V ' . Mit anderen Worten, die Kovarianz verhält sich wie die von k orthogonalen Variablen mit jeweils Varianzen d 2 i i

Cov(β^)=σ2(XX)1.
σ2(VD2V)1=σ2VD2V.
k dii2, die in .Rk

Die Hutmatrix

H=X(XX)1X.
H=(UDV)(VD1U)=UU.

Eigenanalyse (spektrale Zerlegung)

XX=VDUUDV=VD2V
XX=UDVVDU=UD2U,
  • XXXX
  • VXX
  • UXX

SVD kann Kollinearitätsprobleme diagnostizieren und lösen.

Annäherung an die Regressoren

UDVUy

Ridge Regression

XyXλ>0

β^R=(XX+λ)1Xy=(VD2V+λ1p)1VDUy=(VD2V+λVV)1VDUy=(V(D2+λ)V)1VDUy=V(D2+λ)1VVDUy=V(D2+λ)1DUy.

β^D1=D2D(D2+λ)1DD2/(D2+λ)λ>0


Vβ^RUydii1dii2/(dii2+λ)λβ^R

dii1

whuber
quelle
1
@ Glen_b Das ist ein guter Punkt: Ich musste explizit angeben, welchen Bruch ich in Betracht zog! Ich werde das reparieren.
Whuber
1
UU=1pU11=1VV=1pVV1(V1)(V1)=1pV1=VVV=(V)V=1p
1
@Vimal Danke für den guten Vorschlag. Ich habe jetzt eine Erklärung in den Abschnitt "Normale Gleichungen" eingefügt, in dem das Regressionsmodell eingeführt wird.
whuber
1
X
VDU=X=X=UDV.
U=VX
1
y^