Bei der Erklärung der LASSO-Regression wird häufig das Diagramm eines Diamanten und eines Kreises verwendet. Es wird gesagt, dass, da die Form der Beschränkung in LASSO ein Diamant ist, die erhaltene Lösung der kleinsten Quadrate die Ecke des Diamanten berühren könnte, so dass dies zu einer Schrumpfung einer Variablen führt. Bei der Gratregression wird die Achse jedoch häufig nicht berührt, da es sich um einen Kreis handelt. Ich konnte nicht verstehen, warum es die Achse nicht berühren kann oder möglicherweise eine geringere Wahrscheinlichkeit als LASSO hat, bestimmte Parameter zu verkleinern. Warum haben LASSO und Grat eine geringere Varianz als gewöhnliche kleinste Quadrate? Das obige ist mein Verständnis von Ridge und LASSO und ich könnte mich irren. Kann mir jemand helfen, zu verstehen, warum diese beiden Regressionsmethoden eine geringere Varianz aufweisen?
quelle
Antworten:
Dies betrifft die Varianz
OLS bietet den sogenannten Best Linear Unbias Estimator (BLAU) . Wenn Sie also einen anderen unverzerrten Schätzer verwenden, ist die Varianz zwangsläufig höher als bei der OLS-Lösung. Warum um alles in der Welt sollten wir etwas anderes in Betracht ziehen?
Nun besteht der Trick bei der Regularisierung, z. B. beim Lasso oder Kamm, darin, der Reihe nach eine gewisse Verzerrung hinzuzufügen, um die Varianz zu verringern. Denn wenn Sie Ihre Vorhersagefehler schätzen, es ist eine Kombination von drei Dingen :
Was also ist das ? Dies ist die Varianz, die in den Schätzungen für die Parameter in Ihrem Modell eingeführt wurde. Das lineare Modell hat die Form y = X β + ϵ ,Var [ f^( x ) ) ]
Um die OLS-Lösung zu erhalten, lösen wir das Minimierungsproblem
arg min β | | y - X β | | 2
Dies bietet die Lösung
β OLS = ( X T X ) - 1 X T y
das Minimierungsproblem für Firstregressions ähnelt:
arg min β | | y - X β | |
Ich bin mir nicht sicher, ob ich eine klarere Antwort geben kann. Auf die Kovarianzmatrix für die Parameter im Modell und die Größe der Werte in dieser Kovarianzmatrix kommt es an.
Ich habe als Beispiel die Gratregression genommen, weil das viel einfacher zu behandeln ist. Das Lasso ist viel schwieriger und es gibt immer noch aktive Forschung zu diesem Thema.
Diese Folien enthalten weitere Informationen, und dieser Blog enthält auch einige relevante Informationen.
EDIT: Was ich damit meine durch den Grat Zugabe der Determinante „ gezogen “ von Null weg?
Hier ist ein R-Code, um dies zu veranschaulichen:
Welches gibt die Ergebnisse:
Alle Eigenwerte werden also um genau 3 nach oben verschoben.
Sie können dies auch allgemein beweisen, indem Sie den Gershgorin-Kreissatz verwenden . Dort sind die Zentren der Kreise, die die Eigenwerte enthalten, die diagonalen Elemente. Sie können dem diagonalen Element immer "genug" hinzufügen, um alle Kreise in der positiven realen Halbebene zu erstellen. Dieses Ergebnis ist allgemeiner und wird dafür nicht benötigt.
quelle
Ridge Regression
L2 = (y-xβ) ^ 2 + λ∑βi ^ 2
Löst man diese Gleichung vorerst nur für ein β und letzteres kann man verallgemeinern:
Also ist (y-xβ) ^ 2 + λβ ^ 2 unsere Gleichung für ein β.
Unser Ziel ist es, die obige Gleichung zu minimieren, um dies tun zu können, dies mit Null gleichzusetzen und die Ableitungen für β zu nehmen
Y ^ 2- 2xyβ + x ^ 2β ^ 2 + λβ ^ 2 = 0 ------- Unter Verwendung von (ab) ^ 2 Expansion
Teilweise Ableitungen gew
-2xy + 2x ^ 2β + 2βλ = 0
2β (x ^ 2 + λ) = 2xy
β = 2xy / 2 (x ^ 2 + λ)
Schließlich
β = xy / (x ^ 2 + λ)
Wenn Sie den Nenner beobachten, wird er niemals Null, da wir einen Wert von λ addieren (dh einen Hyperparameter). Und deshalb wird der Wert von β so niedrig wie möglich sein, aber nicht Null werden.
LASSO-Regression:
L1 = (y-xβ) ^ 2 + λ∑ | β |
Wird diese Gleichung vorerst nur für ein β gelöst und letzteres kann auf mehrere β verallgemeinert werden:
Also, (y-xβ) ^ 2 + λβ das ist unsere Gleichung für ein β. Hier habe ich + ve Wert von β berücksichtigt.
Unser Ziel ist es, die obige Gleichung zu minimieren, um dies tun zu können, dies mit Null gleichzusetzen und die Ableitungen für β zu nehmen
Y ^ 2- 2xyβ + x ^ 2β ^ 2 + λβ = 0 ------- Unter Verwendung von (ab) ^ 2 Expansion
Teilweise Ableitungen gew
-2xy + 2x ^ 2β + λ = 0
2x ^ 2β + λ = 2xy
2x ^ 2β = 2xy-λ
Schließlich
β = (2xy-λ) / (2X ^ 2)
Wenn Sie den Zähler beobachten, wird er zu Null, da wir einen Wert von λ (dh einen Hyperparameter) subtrahieren. Und deshalb wird der Wert von β auf Null gesetzt.
quelle