Interpretation der Gratregulierung in der Regression

25

Ich habe verschiedene Fragen bezüglich der First Penalty im Rahmen der kleinsten Fehlerquadrate:

βridge=(λID+XX)1Xy

1) Der Ausdruck legt nahe, dass die Kovarianzmatrix von X zu einer Diagonalmatrix geschrumpft ist, was bedeutet, dass (unter der Annahme, dass die Variablen vor der Prozedur standardisiert wurden) die Korrelation zwischen den Eingabevariablen verringert wird. Ist diese Interpretation richtig?

2) Wenn es sich um eine Schrumpfungsanwendung handelt, warum wird sie nicht in den Zeilen von , vorausgesetzt, wir können Lambda mit einer Normalisierung irgendwie auf [0,1] beschränken .(λID+(1λ)XX)

3) Was kann eine Normalisierung für so dass sie auf einen Standardbereich wie [0,1] beschränkt werden kann?λ

4) Das Hinzufügen einer Konstante zur Diagonale wirkt sich auf alle Eigenwerte aus. Wäre es besser, nur die singulären oder nahezu singulären Werte anzugreifen? Entspricht dies der Anwendung von PCA auf X und der Beibehaltung der Top-N-Hauptkomponenten vor der Regression oder hat es einen anderen Namen (da die Berechnung der Kreuzkovarianz nicht geändert wird)?

5) Können wir die Cross-Kovarianz regulieren oder hat sie irgendeinen , dh

βridge=(λID+XX)1(γXy)

Wobei ein kleines die Kreuzkovarianz senkt. Dies senkt natürlich alle Werte gleichermaßen, aber vielleicht gibt es einen intelligenteren Weg, wie das Fest / Weich-Schwellwert-Verhältnis, abhängig vom Kovarianzwert.γβ

Cagdas Ozgenc
quelle
Die Kammstrafe ergibt sich aus einer Einschränkung, dass , durch einen Lagrange-Multiplikator für die MSE-Zielfunktion. LASSO ist das selbe aber mit | β | stattdessen. Ich bin auf meinem Handy, daher kann ich im Moment keine Ableitung veröffentlichen. Aber das sind großartige Fragenβ2T|β|
shadowtalker

Antworten:

19

Gute Fragen!

  1. Ja, das ist genau richtig. Sie können die Kammstrafe als eine Möglichkeit betrachten, das Multikollinearitätsproblem zu lösen , das auftritt, wenn viele Prädiktoren stark korreliert sind. Durch die Einführung der Kammstrafe werden diese Korrelationen effektiv gesenkt.

  2. Ich denke , dass dies zum Teil Tradition ist, teilweise die Tatsache , dass Firstregressionsformel , wie in der ersten Gleichung angegeben ergibt sich aus der folgenden Kostenfunktion: Wenn λ = 0 ist , kann der zweite Term fallengelassen werden, und die Minimierung des ersten Terms ("Rekonstruktionsfehler") führt zur Standard-OLS-Formel für β . Das Beibehalten des zweiten Terms führt zu der Formel für β r i d g e

    L=y-Xβ2+λβ2.
    λ=0ββrichdGe. Diese Kostenfunktion ist mathematisch sehr bequem zu handhaben, und dies könnte einer der Gründe dafür sein, "nicht normalisiertes" Lambda zu bevorzugen.
  3. Ein möglicher Weg zu normalisieren ist es durch die Gesamtvarianz skaliert t r ( XX ) , dh , verwenden λ t r ( XX ) anstelle von λ . Dies würde nicht notwendigerweise beschränken λ auf [ 0 , 1 ] , aber es wäre „dimensionslose“ machen und wahrscheinlich in optimalen würde λ kleiner ist dann 1 in allen praktischen Fällen (NB: Das ist nur eine Vermutung!).λtr(XX)λtr(XX)λλ[0,1]λ1

  4. "Nur kleine Eigenwerte angreifen" hat einen eigenen Namen und wird als Regression der Hauptkomponenten bezeichnet. Der Zusammenhang zwischen PCR und Ridge-Regression besteht darin, dass Sie in der PCR nach einer bestimmten Zahl effektiv alle Eigenwerte mit einer "Stufenstrafe" abschneiden, während die Ridge-Regression eine "weiche Strafe" anwendet, die alle Eigenwerte benachteiligt, wobei kleinere Werte stärker benachteiligt werden. Dies wird in The Elements of Statistical Learning von Hastie et al. (online frei verfügbar), Abschnitt 3.4.1. Siehe auch meine Antwort in Beziehung zwischen Kammregression und PCA-Regression .

  5. Ich habe dies noch nie gesehen, aber beachten Sie, dass Sie eine Kostenfunktion in der Form Dies verkleinert Ihr β nicht auf Null, sondern auf einen anderen vordefinierten Wert β 0 . Wenn man die Mathematik ausarbeitet, gelangt man zu dem optimalen β, das durch β = ( XX + λ I ) - 1 ( Xy +) gegeben ist

    L=yXβ2+λββ02.
    ββ0β was vielleicht als "Regularisierung der Cross-Kovarianz" angesehen werden kann?
    β=(XX+λI)1(Xy+λβ0),
Amöbe sagt Reinstate Monica
quelle
1
Könnten Sie erklären , warum das Hinzufügen zu X ' X bedeutet , dass die Kovarianzmatrix von X zu einer Diagonalmatrix geschrumpft ist? Dies ist eine rein lineare Algebra-Frage, nehme ich an. λIDXXX
Heisenberg
3
@Heisenberg, nun, ist die Kovarianzmatrix von X (bis zu einem 1 / N- Skalierungsfaktor). Für die Berechnung von β muss diese Kovarianzmatrix invertiert werden. In der Ridge-Regression invertieren wir stattdessen X X + λ I , sodass man X X + λ I als regulierte Schätzung der Kovarianzmatrix sehen kann. Nun ist der Term λ I eine Diagonalmatrix mit λ auf der Diagonale. Stellen Sie sich vor, dass λ sehr groß ist; dann wird die Summe vom diagonalen Term λ dominiertXXX1/NβXX+λIXX+λIλIλλ , und so wird die regulierte Kovarianz mitwachsendem λ immer diagonaler. λIλ
Amöbe sagt Reinstate Monica
In Q5, Elemente des statistischen Lernens, werden Glättungsbeschränkungen für Bildverarbeitungsanwendungen (PDA - Seite 447)
seanv507,
10

Ein weiterer Kommentar zu Frage 4. Tatsächlich geht die Gratregression ziemlich effektiv mit den kleinen Eigenwerten von während die großen Eigenwerte meistens in Ruhe gelassen werden. XTX

Um dies zu sehen, drücken Sie den Gratregressionsschätzer in Form der Singularwertzerlegung von . X

X=i=1nσiuiviT

wobei die -Vektoren zueinander orthogonal sind und die v i -Vektoren ebenfalls zueinander orthogonal sind. Hier werden die Eigenwerte von X T X sind σ 2 i , i = 1 , 2 , ... , n . uiviXTXσi2i=1,2,,n

Dann kannst du das zeigen

βridge=i=1nσi2σi2+λ1σi(uiTy)vi.

Betrachten Sie nun die "Filterfaktoren" . Wenn λ = 0 ist , sind die Filterfaktoren 1 und wir erhalten die konventionelle Lösung der kleinsten Quadrate. Wenn λ > 0 und σ 2 i » λ , dann wird der Filterfaktor ist im Wesentlichen 1. Wenn σ 2 i « λ , dann ist dieser Faktor im Wesentlichen gleich 0. Somit sind die Bedingungen für die kleinen Eigenwerten effektiv ausfallen, während die auf die entsprechenden größere Eigenwerte bleiben erhalten. σi2/(σi2+λ)λ=0λ>0σi2λσi2λ

Im Vergleich dazu verwendet die Regression der Hauptkomponenten in dieser Formel einfach die Faktoren 1 (für die größeren Eigenwerte) oder 0 (für die kleineren Eigenwerte, die fallengelassen werden).

Brian Borchers
quelle
1
Genau darauf habe ich in meiner Antwort kurz hingewiesen, aber es ist sehr schön, wenn ich es mathematisch erarbeiten und demonstrieren lasse, +1.
Amöbe sagt Reinstate Monica
5

XX

λx+y=κ(αx+(1α)y),
α=λ1+λκ=1+λ0λ<+0<α1

Die Technik, die Sie als "nur die singulären oder nahezu singulären Werte angreifen" bezeichnen, wird auch als Singular Spectrum Analysis (zum Zweck der linearen Regression) bezeichnet (siehe Gleichung 19). Wenn Sie mit "angreifen" "Entfernen" meinen ". Die Cross-Kovarianz bleibt unverändert.

X

Vincent Guillemot
quelle
Vielen Dank. In der PCR wird die Kovarianz mit y berechnet, nachdem die Dimensionsverringerung durchgeführt wurde. Ist das der Unterschied zwischen PCR und SSA? Dein Gamma (nicht meins), wie wählst du das so aus, dass Alpha [0,1] begrenzt wird?
Cagdas Ozgenc
1
γκ
Ich denke, Sie haben Recht mit dem Unterschied zwischen SSA und PCR. Wir sollten es jedoch aufschreiben, um sicherzugehen.
Vincent Guillemot