Beziehung zwischen Kammregression und PCA-Regression

Ich erinnere mich , im Web habe irgendwo gelesen, die eine Verbindung zwischen Ridge - Regression (mit $\ell_2$ Regularisierung) und PCA Regression: bei der Verwendung von $\ell_2$ -regularized Regression mit Hyper $\lambda$ , wenn $\lambda \to 0$ , dann ist die Regression auf dem Entfernen den PC - Variable entspricht mit der kleinste Eigenwert.

Warum ist das so?
Hat dies etwas mit dem Optimierungsverfahren zu tun? Naiv hätte ich erwartet, dass es OLS entspricht.
Hat jemand eine Referenz dafür?

regression pca regularization ridge-regression Jose G
quelle

Können Sie genauer erläutern, wie PCA und Regression in Ihrer Aussage zusammenhängen? Bei der Regression wird zwischen abhängigen und unabhängigen Variablen unterschieden, während bei der PCA nichts dergleichen auftritt. Auf welche Variablen wenden Sie PCA an? Es können nicht nur die unabhängigen Variablen sein, denn das hätte wenig mit der Regression zu tun. Wenn es jedoch auf alle Variablen angewendet wird, sind die Eigenvektoren Linearkombinationen von allen. Was könnte es möglicherweise bedeuten, eine solche Komponente aus dem Datensatz zu entfernen , da es sich um die abhängige Variable handelt?

Whuber

Die Verbindung (wie ich verstehe) ist, dass, wenn Sie eine sehr sehr kleine Regularisierungsstrafe verwenden, eine L2-regularisierte Regression die Variable entfernen würde, die den kleinsten Eigenwert hat. Daher entspricht das Ausführen einer SVD für die Entwurfsmatrix und das Entfernen der Variablen mit dem kleinsten Eigenwert einer Regression mit einer "weichen" Regularisierungsstrafe ... Dies ist die nächstliegende Erklärung, die ich gefunden habe: sites.stat.psu. edu / ~ jiali / course / stat597e / notes2 / lreg.pdf

Jose G

Ihre Referenz scheint das Gegenteil von dem zu demonstrieren, was Sie in Ihren Kommentaren gesagt haben: Für kleines

ändert sich das Ergebnis kaum. Es wird überhaupt nichts entfernt. In der Tat scheinen mehrere Folien darauf abzuzielen, den Unterschied zwischen der bestraften

Regression (bei der die Schätzungen auf

geschrumpft sind ) und der "PCA - Regression" (bei der die kleinsten Komponenten vollständig entfernt werden - was eine sehr schlechte Sache sein kann) hervorzuheben einige Umstände).

λ

$\lambda$

L^{2}

$L^2$

0

$0$

Whuber

Mmm .. fand eine andere Referenz: statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf In der Folie "

und Hauptkomponenten" heißt es, dass die Gratregression y auf diese Komponenten mit projiziert großer DJ * Seufzer *

y^{r i d g e}

$y^{ridge}$

Jose G

Haben Sie bemerkt, dass p. 14 dieser letzten Referenz beantwortet explizit Ihre Frage?

whuber

Antworten:

Sei die zentrierte Prädiktormatrix und betrachte ihre Singularwertzerlegung wobei eine Diagonalmatrix mit diagonalen Elementen . $\mathbf X$ $n \times p$ $\mathbf X = \mathbf{USV}^\top$ $\mathbf S$ $s_i$

Die angepaßten Werte des gewöhnlichen kleinsten Quadrate (OLS) Regression sind gegeben durch Die angepaßten Werte des Firstregressions sind gegeben durch

{\hat{y}}_{O L S} = X β_{O L S} = X (X^{⊤} X)^{- 1} X^{⊤} y = U U^{⊤} y .

$\hat {\mathbf y}_\mathrm{OLS} = \mathbf X \beta_\mathrm{OLS} = \mathbf X (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf y = \mathbf U \mathbf U^\top \mathbf y.$

Die angepaßten Werte der PCARegression (PCR) mit

Komponenten sind gegeben durch

{\hat{y}}_{r i d g e} = X β_{r i d g e} = X (X^{⊤} X + λ I)^{- 1} X^{⊤} y = U d i a g {\frac{s_{i}^{2}}{s_{i}^{2} + λ}} U^{⊤} y .

$\hat {\mathbf y}_\mathrm{ridge} = \mathbf X \beta_\mathrm{ridge} = \mathbf X (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y = \mathbf U\: \mathrm{diag}\left\{\frac{s_i^2}{s_i^2+\lambda}\right\}\mathbf U^\top \mathbf y.$

k

$k$

wobei es

Einsengibt

denenNullen folgen.

{\hat{y}}_{P C R} = X_{P C A} β_{P C R} = U d i a g {1, \dots, 1, 0, \dots 0} U^{⊤} y,

$\hat {\mathbf y}_\mathrm{PCR} = \mathbf X_\mathrm{PCA} \beta_\mathrm{PCR} = \mathbf U\: \mathrm{diag}\left\{1,\ldots, 1, 0, \ldots 0\right\}\mathbf U^\top \mathbf y,$

k

$k$

Von hier aus können wir sehen, dass:

Wenn , dann . $\lambda=0$ $\hat {\mathbf y}_\mathrm{ridge} = \hat {\mathbf y}_\mathrm{OLS}$
$\lambda>0$ $s_i$ $s_i^2 \approx \lambda$
$k$ $\lambda=0$ $k$ $\lambda=\infty$
Dies bedeutet, dass die Ridge-Regression als "glatte Version" der PCR angesehen werden kann.

$s_i$ $\mathbf X$
Die Ridge-Regression ist in der Praxis tendenziell besser (z. B. um eine höhere Cross-Validated-Leistung zu erzielen).
$\lambda \to 0$ $\hat {\mathbf y}_\mathrm{ridge} \to \hat {\mathbf y}_\mathrm{OLS}$ . Ich verstehe nicht, wie das dem Entfernen des Kleinsten entsprechen kann $s_i$ . Ich denke das ist falsch.

Eine gute Referenz ist The Elements of Statistical Learning , Abschnitt 3.4.1 "Ridge Regression".

Siehe auch diesen Thread: Interpretation der Grat-Regularisierung in der Regression und insbesondere die Antwort von @BrianBorchers.

Amöbe sagt Reinstate Monica
quelle

Wäre es jemals sinnvoll, die Singularwerte, max (

s_{i} -

$s_i -$ dreschen, 0)? (Lasso-Regressionsschwellen

β_{L e a s t - s q u a r e s}

$\beta_{Least-squares}$ , nicht das Spektrum.)

Denis

Eine Korrektur für Ihre ansonsten gute Antwort: die angepassten Werte in der Regression für die erste

k

$k$ PCs sind eigentlich

U diag (1_{1}, 1_{2}, . . ., 1_{k}, 0, . . ., 0) U^{T} y

$\mathbf{U} {\text{diag}}(1_1,1_2,...,1_k,0,...,0)\mathbf{U}^T\mathbf{y}$ Dies ist eine Übung am Ende des Kapitels, das Sie erwähnen.

Matthias Schmidtblaicher

Das ist schön.

xxx222

Elemente des statistischen Lernens haben eine große Diskussion über diesen Zusammenhang.

Ich habe diese Verbindung und Logik folgendermaßen interpretiert:

PCA ist eine lineare Kombination der Merkmalsvariablen, die versucht, die Varianz der durch den neuen Raum erklärten Daten zu maximieren.
Daten mit Multikollinearität (oder mehr Prädiktoren als Datenzeilen) führen zu einer Kovarianzmatrix ohne vollen Rang.
Mit dieser Kovarianzmatrix können wir nicht invertieren, um die Least-Squares-Lösung zu bestimmen. Dies bewirkt, dass die numerische Approximation der Koeffizienten der kleinsten Quadrate in die Unendlichkeit sprengt.
Ridge Regression führt die Strafe Lambda für die Covarianzmatrix ein, um die Matrixinversion und Konvergenz der LS-Koeffizienten zu ermöglichen.

Die PCA-Verbindung besteht darin, dass die Ridge Regression die linearen Kombinationen der Features berechnet, um zu bestimmen, wo die Multikollinearität auftritt. Die linearen Merkmalskombinationen (Prinzipielle Komponentenanalyse) mit der geringsten Varianz (und damit kleineren Singularwerten und kleineren Eigenwerten in PCA) werden am härtesten bestraft.

Denk darüber so; Für die lineare Kombination von Merkmalen mit kleinster Varianz haben wir die Merkmale gefunden, die am ähnlichsten sind, wodurch die Multikollinearität verursacht wird. Da Ridge das Feature-Set nicht reduziert, unabhängig von der Richtung, die diese lineare Kombination beschreibt, wird das ursprüngliche Feature, das dieser Richtung entspricht, am stärksten benachteiligt.

MDornbos
quelle

Betrachten Sie die lineare Gleichung

X β = y,

$\mathbf X \beta = \mathbf y\,,$ und der SVD von

X

$\mathbf X$ ,

X = U S V^{T},

$\mathbf X = \mathbf U \,\mathbf S \,\mathbf V^T,$ woher

S = diag (s_{i})

$\mathbf S = \text{diag}(s_i)$ ist die diagonale Matrix der singulären Werte.

Ordentliche kleinste Quadrate bestimmen den Parametervektor $\beta$ wie

β_{O L S} = V S^{- 1} U^{T}

$\beta_{OLS} = \mathbf V \,\mathbf S^{-1} \,\mathbf U^T$ Dieser Ansatz schlägt jedoch fehl, sobald es einen singulären Wert gibt, der Null ist (da dann die Inverse nicht existiert). Darüber hinaus, auch wenn nein

s_{i}

$s_i$ genau Null ist, können numerisch kleine Singularwerte die Matrix schlecht konditionieren und zu einer sehr fehleranfälligen Lösung führen.

Ridge-Regression und PCA stellen zwei Methoden vor, um diese Probleme zu vermeiden. Gratregression ersetzt $\mathbf S^{-1}$ in der obigen Gleichung für $\beta$ durch

\begin{aligned} S_{Grat}^{- 1} & = diag (\frac{s_{ich}}{s_{ich}^{2} + α}), \\ β_{Grat} & = V S_{Grat}^{- 1} U^{T} \end{aligned}

$\begin{align} \mathbf S^{-1}_{\text{ridge}} &= \text{diag}\bigg(\frac{s_i}{s^2_i+\alpha}\bigg),\\ \beta_{\text{ridge}} &= \ \mathbf V \,\mathbf S_{\text{ridge}}^{-1} \,\mathbf U^T \end{align}$

PCA ersetzt $\mathbf S^{-1}$ durch

\begin{aligned} S_{PCA}^{- 1} & = diag (\frac{1}{s_{ich}} θ (s_{ich} - γ)), \\ β_{PCA} & = V S_{PCA}^{- 1} U^{T} \end{aligned}

$\begin{align} \mathbf S^{-1}_{\text{PCA}} &= \text{diag}\bigg(\frac{1}{s_i} \, \theta(s_i-\gamma)\bigg)\,,\\ \beta_{\text{PCA}} &= \ \mathbf V \,\mathbf S_{\text{PCA}}^{-1} \,\mathbf U^T \end{align}$ wehre

θ

$\theta$ ist die Sprungfunktion und

γ

$\gamma$ ist der Schwellwertparameter.

Beide Methoden schwächen somit die Auswirkung von Teilräumen, die kleinen Werten entsprechen. PCA tut dies auf harte Weise, während der Grat eine glattere Annäherung ist.

Noch abstrakter: Überlegen Sie sich Ihr eigenes Regularisierungsschema

S_{myReg}^{- 1} = diag (R (s_{ich})),

$\mathbf S^{-1}_{\text{myReg}} = \text{diag}\big(R(s_i)\big)\,,$ woher

R (x)

$R(x)$ ist eine Funktion, die für gegen Null gehen sollte

x \to 0

$x\rightarrow 0$ und

R (x) \to x^{- 1}

$R(x)\rightarrow x^{-1}$ zum

x

$x$ groß. Aber denk dran, es gibt kein kostenloses Mittagessen.

Davidhigh
quelle