Ich erinnere mich , im Web habe irgendwo gelesen, die eine Verbindung zwischen Ridge - Regression (mit Regularisierung) und PCA Regression: bei der Verwendung von -regularized Regression mit Hyper , wenn , dann ist die Regression auf dem Entfernen den PC - Variable entspricht mit der kleinste Eigenwert.
- Warum ist das so?
- Hat dies etwas mit dem Optimierungsverfahren zu tun? Naiv hätte ich erwartet, dass es OLS entspricht.
- Hat jemand eine Referenz dafür?
Antworten:
Sei die zentrierte n × p- Prädiktormatrix und betrachte ihre Singularwertzerlegung X = U S V ⊤, wobei S eine Diagonalmatrix mit diagonalen Elementen s i ist .X n×p X=USV⊤ S sich
Die angepaßten Werte des gewöhnlichen kleinsten Quadrate (OLS) Regression sind gegeben durch y O L S = X β O L S = X ( X ⊤ X ) - 1 X ⊤ y = U U ⊤ y . Die angepaßten Werte des Firstregressions sind gegeben durch y r i d g e = X β r i d g e = X ( X ⊤ X
Von hier aus können wir sehen, dass:
Wenn , dann y r i d g e = y O L S .λ=0 y^ridge=y^OLS
Dies bedeutet, dass die Ridge-Regression als "glatte Version" der PCR angesehen werden kann.
Die Ridge-Regression ist in der Praxis tendenziell besser (z. B. um eine höhere Cross-Validated-Leistung zu erzielen).
Eine gute Referenz ist The Elements of Statistical Learning , Abschnitt 3.4.1 "Ridge Regression".
Siehe auch diesen Thread: Interpretation der Grat-Regularisierung in der Regression und insbesondere die Antwort von @BrianBorchers.
quelle
Elemente des statistischen Lernens haben eine große Diskussion über diesen Zusammenhang.
Ich habe diese Verbindung und Logik folgendermaßen interpretiert:
Die PCA-Verbindung besteht darin, dass die Ridge Regression die linearen Kombinationen der Features berechnet, um zu bestimmen, wo die Multikollinearität auftritt. Die linearen Merkmalskombinationen (Prinzipielle Komponentenanalyse) mit der geringsten Varianz (und damit kleineren Singularwerten und kleineren Eigenwerten in PCA) werden am härtesten bestraft.
Denk darüber so; Für die lineare Kombination von Merkmalen mit kleinster Varianz haben wir die Merkmale gefunden, die am ähnlichsten sind, wodurch die Multikollinearität verursacht wird. Da Ridge das Feature-Set nicht reduziert, unabhängig von der Richtung, die diese lineare Kombination beschreibt, wird das ursprüngliche Feature, das dieser Richtung entspricht, am stärksten benachteiligt.
quelle
Betrachten Sie die lineare GleichungX β= y,
und der SVD von X ,
X = USVT,
woher S =diag( sich) ist die diagonale Matrix der singulären Werte.
Ordentliche kleinste Quadrate bestimmen den Parametervektorβ wie
βO L S= VS- 1UT
Dieser Ansatz schlägt jedoch fehl, sobald es einen singulären Wert gibt, der Null ist (da dann die Inverse nicht existiert). Darüber hinaus, auch wenn neinsich genau Null ist, können numerisch kleine Singularwerte die Matrix schlecht konditionieren und zu einer sehr fehleranfälligen Lösung führen.
Ridge-Regression und PCA stellen zwei Methoden vor, um diese Probleme zu vermeiden. Gratregression ersetztS- 1 in der obigen Gleichung für β durch
S- 1GratβGrat= diag ( sichs2ich+ α) ,= V S- 1GratUT
PCA ersetztS- 1 durch
S- 1PCAβPCA= diag ( 1sichθ ( sich- γ) ),= V S- 1PCAUT
wehre θ ist die Sprungfunktion und γ ist der Schwellwertparameter.
Beide Methoden schwächen somit die Auswirkung von Teilräumen, die kleinen Werten entsprechen. PCA tut dies auf harte Weise, während der Grat eine glattere Annäherung ist.
Noch abstrakter: Überlegen Sie sich Ihr eigenes RegularisierungsschemaS- 1myReg= diag ( R ( sich) ),
woher R ( x ) ist eine Funktion, die für gegen Null gehen sollte x → 0 und R ( x ) → x- 1 zum x groß. Aber denk dran, es gibt kein kostenloses Mittagessen.
quelle