Ich habe verschiedene Fragen bezüglich der First Penalty im Rahmen der kleinsten Fehlerquadrate:
1) Der Ausdruck legt nahe, dass die Kovarianzmatrix von X zu einer Diagonalmatrix geschrumpft ist, was bedeutet, dass (unter der Annahme, dass die Variablen vor der Prozedur standardisiert wurden) die Korrelation zwischen den Eingabevariablen verringert wird. Ist diese Interpretation richtig?
2) Wenn es sich um eine Schrumpfungsanwendung handelt, warum wird sie nicht in den Zeilen von , vorausgesetzt, wir können Lambda mit einer Normalisierung irgendwie auf [0,1] beschränken .
3) Was kann eine Normalisierung für so dass sie auf einen Standardbereich wie [0,1] beschränkt werden kann?
4) Das Hinzufügen einer Konstante zur Diagonale wirkt sich auf alle Eigenwerte aus. Wäre es besser, nur die singulären oder nahezu singulären Werte anzugreifen? Entspricht dies der Anwendung von PCA auf X und der Beibehaltung der Top-N-Hauptkomponenten vor der Regression oder hat es einen anderen Namen (da die Berechnung der Kreuzkovarianz nicht geändert wird)?
5) Können wir die Cross-Kovarianz regulieren oder hat sie irgendeinen , dh
Wobei ein kleines die Kreuzkovarianz senkt. Dies senkt natürlich alle Werte gleichermaßen, aber vielleicht gibt es einen intelligenteren Weg, wie das Fest / Weich-Schwellwert-Verhältnis, abhängig vom Kovarianzwert.
quelle
Antworten:
Gute Fragen!
Ja, das ist genau richtig. Sie können die Kammstrafe als eine Möglichkeit betrachten, das Multikollinearitätsproblem zu lösen , das auftritt, wenn viele Prädiktoren stark korreliert sind. Durch die Einführung der Kammstrafe werden diese Korrelationen effektiv gesenkt.
Ich denke , dass dies zum Teil Tradition ist, teilweise die Tatsache , dass Firstregressionsformel , wie in der ersten Gleichung angegeben ergibt sich aus der folgenden Kostenfunktion: Wenn λ = 0 ist , kann der zweite Term fallengelassen werden, und die Minimierung des ersten Terms ("Rekonstruktionsfehler") führt zur Standard-OLS-Formel für β . Das Beibehalten des zweiten Terms führt zu der Formel für β r i d g e
Ein möglicher Weg zu normalisieren ist es durch die Gesamtvarianz skaliert t r ( X ⊤ X ) , dh , verwenden λ t r ( X ⊤ X ) anstelle von λ . Dies würde nicht notwendigerweise beschränken λ auf [ 0 , 1 ] , aber es wäre „dimensionslose“ machen und wahrscheinlich in optimalen würde λ kleiner ist dann 1 in allen praktischen Fällen (NB: Das ist nur eine Vermutung!).λ t r ( X⊤X ) λ t r ( X⊤X ) λ λ [0,1] λ 1
"Nur kleine Eigenwerte angreifen" hat einen eigenen Namen und wird als Regression der Hauptkomponenten bezeichnet. Der Zusammenhang zwischen PCR und Ridge-Regression besteht darin, dass Sie in der PCR nach einer bestimmten Zahl effektiv alle Eigenwerte mit einer "Stufenstrafe" abschneiden, während die Ridge-Regression eine "weiche Strafe" anwendet, die alle Eigenwerte benachteiligt, wobei kleinere Werte stärker benachteiligt werden. Dies wird in The Elements of Statistical Learning von Hastie et al. (online frei verfügbar), Abschnitt 3.4.1. Siehe auch meine Antwort in Beziehung zwischen Kammregression und PCA-Regression .
Ich habe dies noch nie gesehen, aber beachten Sie, dass Sie eine Kostenfunktion in der Form Dies verkleinert Ihr β nicht auf Null, sondern auf einen anderen vordefinierten Wert β 0 . Wenn man die Mathematik ausarbeitet, gelangt man zu dem optimalen β, das durch β = ( X ⊤ X + λ I ) - 1 ( X ⊤ y +) gegeben ist
quelle
Ein weiterer Kommentar zu Frage 4. Tatsächlich geht die Gratregression ziemlich effektiv mit den kleinen Eigenwerten von während die großen Eigenwerte meistens in Ruhe gelassen werden.XTX
Um dies zu sehen, drücken Sie den Gratregressionsschätzer in Form der Singularwertzerlegung von .X
wobei die -Vektoren zueinander orthogonal sind und die v i -Vektoren ebenfalls zueinander orthogonal sind. Hier werden die Eigenwerte von X T X sind σ 2 i , i = 1 , 2 , ... , n .ui vi XTX σ2i i=1,2,…,n
Dann kannst du das zeigen
Betrachten Sie nun die "Filterfaktoren" . Wenn λ = 0 ist , sind die Filterfaktoren 1 und wir erhalten die konventionelle Lösung der kleinsten Quadrate. Wenn λ > 0 und σ 2 i » λ , dann wird der Filterfaktor ist im Wesentlichen 1. Wenn σ 2 i « λ , dann ist dieser Faktor im Wesentlichen gleich 0. Somit sind die Bedingungen für die kleinen Eigenwerten effektiv ausfallen, während die auf die entsprechenden größere Eigenwerte bleiben erhalten.σ2i/(σ2i+λ) λ=0 λ>0 σ2i≫λ σ2i≪λ
Im Vergleich dazu verwendet die Regression der Hauptkomponenten in dieser Formel einfach die Faktoren 1 (für die größeren Eigenwerte) oder 0 (für die kleineren Eigenwerte, die fallengelassen werden).
quelle
Die Technik, die Sie als "nur die singulären oder nahezu singulären Werte angreifen" bezeichnen, wird auch als Singular Spectrum Analysis (zum Zweck der linearen Regression) bezeichnet (siehe Gleichung 19). Wenn Sie mit "angreifen" "Entfernen" meinen ". Die Cross-Kovarianz bleibt unverändert.
quelle