Beziehung zwischen Kammregression und PCA-Regression

19

Ich erinnere mich , im Web habe irgendwo gelesen, die eine Verbindung zwischen Ridge - Regression (mit 2 Regularisierung) und PCA Regression: bei der Verwendung von 2 -regularized Regression mit Hyper λ , wenn λ0 , dann ist die Regression auf dem Entfernen den PC - Variable entspricht mit der kleinste Eigenwert.

  • Warum ist das so?
  • Hat dies etwas mit dem Optimierungsverfahren zu tun? Naiv hätte ich erwartet, dass es OLS entspricht.
  • Hat jemand eine Referenz dafür?
Jose G
quelle
1
Können Sie genauer erläutern, wie PCA und Regression in Ihrer Aussage zusammenhängen? Bei der Regression wird zwischen abhängigen und unabhängigen Variablen unterschieden, während bei der PCA nichts dergleichen auftritt. Auf welche Variablen wenden Sie PCA an? Es können nicht nur die unabhängigen Variablen sein, denn das hätte wenig mit der Regression zu tun. Wenn es jedoch auf alle Variablen angewendet wird, sind die Eigenvektoren Linearkombinationen von allen. Was könnte es möglicherweise bedeuten, eine solche Komponente aus dem Datensatz zu entfernen , da es sich um die abhängige Variable handelt?
Whuber
1
Die Verbindung (wie ich verstehe) ist, dass, wenn Sie eine sehr sehr kleine Regularisierungsstrafe verwenden, eine L2-regularisierte Regression die Variable entfernen würde, die den kleinsten Eigenwert hat. Daher entspricht das Ausführen einer SVD für die Entwurfsmatrix und das Entfernen der Variablen mit dem kleinsten Eigenwert einer Regression mit einer "weichen" Regularisierungsstrafe ... Dies ist die nächstliegende Erklärung, die ich gefunden habe: sites.stat.psu. edu / ~ jiali / course / stat597e / notes2 / lreg.pdf
Jose G
3
Ihre Referenz scheint das Gegenteil von dem zu demonstrieren, was Sie in Ihren Kommentaren gesagt haben: Für kleines ändert sich das Ergebnis kaum. Es wird überhaupt nichts entfernt. In der Tat scheinen mehrere Folien darauf abzuzielen, den Unterschied zwischen der bestraften L 2 - Regression (bei der die Schätzungen auf 0 geschrumpft sind ) und der "PCA - Regression" (bei der die kleinsten Komponenten vollständig entfernt werden - was eine sehr schlechte Sache sein kann) hervorzuheben einige Umstände). λL20
Whuber
2
Mmm .. fand eine andere Referenz: statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf In der Folie " und Hauptkomponenten" heißt es, dass die Gratregression y auf diese Komponenten mit projiziert großer DJ * Seufzer *yridge
Jose G
3
Haben Sie bemerkt, dass p. 14 dieser letzten Referenz beantwortet explizit Ihre Frage?
whuber

Antworten:

23

Sei die zentrierte n × p- Prädiktormatrix und betrachte ihre Singularwertzerlegung X = U S V ⊤, wobei S eine Diagonalmatrix mit diagonalen Elementen s i ist .Xn×pX=USVSsich

Die angepaßten Werte des gewöhnlichen kleinsten Quadrate (OLS) Regression sind gegeben durch y O L S = X β O L S = X ( XX ) - 1 Xy = U Uy . Die angepaßten Werte des Firstregressions sind gegeben durch y r i d g e = X β r i d g e = X ( XX

y^OLS=XβOLS=X(XX)1Xy=UUy.
Die angepaßten Werte der PCARegression (PCR) mitkKomponenten sind gegeben durch y PCR=XPCAβPCR=U
y^ridge=Xβridge=X(XX+λI)1Xy=Udiag{si2si2+λ}Uy.
k wobei es k Einsengibt , denenNullen folgen.
y^PCR=XPCAβPCR=Udiag{1,,1,0,0}Uy,
k

Von hier aus können wir sehen, dass:

  1. Wenn , dann y r i d g e = y O L S .λ=0y^ridge=y^OLS

  2. λ>0sisi2λ

  3. kλ=0kλ=

  4. Dies bedeutet, dass die Ridge-Regression als "glatte Version" der PCR angesehen werden kann.

    siX

  5. Die Ridge-Regression ist in der Praxis tendenziell besser (z. B. um eine höhere Cross-Validated-Leistung zu erzielen).

  6. λ0y^richdGey^OLS. Ich verstehe nicht, wie das dem Entfernen des Kleinsten entsprechen kannsich. Ich denke das ist falsch.

Eine gute Referenz ist The Elements of Statistical Learning , Abschnitt 3.4.1 "Ridge Regression".


Siehe auch diesen Thread: Interpretation der Grat-Regularisierung in der Regression und insbesondere die Antwort von @BrianBorchers.

Amöbe sagt Reinstate Monica
quelle
Wäre es jemals sinnvoll, die Singularwerte, max ( sich-dreschen, 0)? (Lasso-RegressionsschwellenβLeeinst-squeinres, nicht das Spektrum.)
Denis
Eine Korrektur für Ihre ansonsten gute Antwort: die angepassten Werte in der Regression für die erste k PCs sind eigentlich
Udiag(11,12,...,1k,0,...,0)UTy
Dies ist eine Übung am Ende des Kapitels, das Sie erwähnen.
Matthias Schmidtblaicher
Das ist schön.
xxx222
6

Elemente des statistischen Lernens haben eine große Diskussion über diesen Zusammenhang.

Ich habe diese Verbindung und Logik folgendermaßen interpretiert:

  • PCA ist eine lineare Kombination der Merkmalsvariablen, die versucht, die Varianz der durch den neuen Raum erklärten Daten zu maximieren.
  • Daten mit Multikollinearität (oder mehr Prädiktoren als Datenzeilen) führen zu einer Kovarianzmatrix ohne vollen Rang.
  • Mit dieser Kovarianzmatrix können wir nicht invertieren, um die Least-Squares-Lösung zu bestimmen. Dies bewirkt, dass die numerische Approximation der Koeffizienten der kleinsten Quadrate in die Unendlichkeit sprengt.
  • Ridge Regression führt die Strafe Lambda für die Covarianzmatrix ein, um die Matrixinversion und Konvergenz der LS-Koeffizienten zu ermöglichen.

Die PCA-Verbindung besteht darin, dass die Ridge Regression die linearen Kombinationen der Features berechnet, um zu bestimmen, wo die Multikollinearität auftritt. Die linearen Merkmalskombinationen (Prinzipielle Komponentenanalyse) mit der geringsten Varianz (und damit kleineren Singularwerten und kleineren Eigenwerten in PCA) werden am härtesten bestraft.

Denk darüber so; Für die lineare Kombination von Merkmalen mit kleinster Varianz haben wir die Merkmale gefunden, die am ähnlichsten sind, wodurch die Multikollinearität verursacht wird. Da Ridge das Feature-Set nicht reduziert, unabhängig von der Richtung, die diese lineare Kombination beschreibt, wird das ursprüngliche Feature, das dieser Richtung entspricht, am stärksten benachteiligt.

MDornbos
quelle
2

Betrachten Sie die lineare Gleichung

Xβ=y,
und der SVD von X,
X=USVT,
woher S=diag(sich) ist die diagonale Matrix der singulären Werte.

Ordentliche kleinste Quadrate bestimmen den Parametervektor β wie

βOLS=VS-1UT
Dieser Ansatz schlägt jedoch fehl, sobald es einen singulären Wert gibt, der Null ist (da dann die Inverse nicht existiert). Darüber hinaus, auch wenn neinsich genau Null ist, können numerisch kleine Singularwerte die Matrix schlecht konditionieren und zu einer sehr fehleranfälligen Lösung führen.

Ridge-Regression und PCA stellen zwei Methoden vor, um diese Probleme zu vermeiden. Gratregression ersetztS-1 in der obigen Gleichung für β durch

SGrat-1=diag(sichsich2+α),βGrat= VSGrat-1UT

PCA ersetzt S-1 durch

SPCA-1=diag(1sichθ(sich-γ)),βPCA= VSPCA-1UT
wehre θ ist die Sprungfunktion und γ ist der Schwellwertparameter.

Beide Methoden schwächen somit die Auswirkung von Teilräumen, die kleinen Werten entsprechen. PCA tut dies auf harte Weise, während der Grat eine glattere Annäherung ist.

Noch abstrakter: Überlegen Sie sich Ihr eigenes Regularisierungsschema

SmyReg-1=diag(R(sich)),
woher R(x) ist eine Funktion, die für gegen Null gehen sollte x0 und R(x)x-1 zum xgroß. Aber denk dran, es gibt kein kostenloses Mittagessen.

Davidhigh
quelle