Warum schrumpft die Gratregression einige Koeffizienten nicht auf Null wie Lasso?

16

Bei der Erklärung der LASSO-Regression wird häufig das Diagramm eines Diamanten und eines Kreises verwendet. Es wird gesagt, dass, da die Form der Beschränkung in LASSO ein Diamant ist, die erhaltene Lösung der kleinsten Quadrate die Ecke des Diamanten berühren könnte, so dass dies zu einer Schrumpfung einer Variablen führt. Bei der Gratregression wird die Achse jedoch häufig nicht berührt, da es sich um einen Kreis handelt. Ich konnte nicht verstehen, warum es die Achse nicht berühren kann oder möglicherweise eine geringere Wahrscheinlichkeit als LASSO hat, bestimmte Parameter zu verkleinern. Warum haben LASSO und Grat eine geringere Varianz als gewöhnliche kleinste Quadrate? Das obige ist mein Verständnis von Ridge und LASSO und ich könnte mich irren. Kann mir jemand helfen, zu verstehen, warum diese beiden Regressionsmethoden eine geringere Varianz aufweisen?

user10024395
quelle
1
Mögliches Duplikat von Warum bietet das Lasso eine Variablenauswahl?
Juho Kokkala
1
Ok, der fettgedruckte Varianzteil ist zumindest bei dieser Frage nicht doppelt vorhanden. Vielleicht könnte diese Frage bearbeitet werden, um sich darauf zu konzentrieren.
Juho Kokkala
@ FCOP Ich habe das Buch gelesen, aber ich verstehe die Mathematik nicht ganz
user10024395
Aber um das Bild zu verstehen, brauchen Sie nicht die Mathematik?

Antworten:

25

Dies betrifft die Varianz

OLS bietet den sogenannten Best Linear Unbias Estimator (BLAU) . Wenn Sie also einen anderen unverzerrten Schätzer verwenden, ist die Varianz zwangsläufig höher als bei der OLS-Lösung. Warum um alles in der Welt sollten wir etwas anderes in Betracht ziehen?

Nun besteht der Trick bei der Regularisierung, z. B. beim Lasso oder Kamm, darin, der Reihe nach eine gewisse Verzerrung hinzuzufügen, um die Varianz zu verringern. Denn wenn Sie Ihre Vorhersagefehler schätzen, es ist eine Kombination von drei Dingen :

E[(y-f^(x))2]=Vorspannen[f^(x))]2+Var[f^(x))]+σ2
Der letzte Teil ist der irreduzible Fehler, daher haben wir keine Kontrolle darüber. Bei Verwendung der OLS-Lösung ist der Bias-Term Null. Aber es könnte sein, dass die zweite Amtszeit groß ist. Es könnte eine gute Idee sein ( wenn wir gute Vorhersagen wollen ), eine gewisse Verzerrung hinzuzufügen und hoffentlich die Varianz zu verringern.

Was also ist das ? Dies ist die Varianz, die in den Schätzungen für die Parameter in Ihrem Modell eingeführt wurde. Das lineare Modell hat die Form y = X β + ϵ ,Var[f^(x))] Um die OLS-Lösung zu erhalten, lösen wir das Minimierungsproblem arg min β | | y - X β | | 2 Dies bietet die Lösung β OLS = ( X T X ) - 1 X T y das Minimierungsproblem für Firstregressions ähnelt: arg min β | | y - X β | |

y=Xβ+ϵ,ϵN(0,σ2ich)
argMindestβ||y-Xβ||2
β^OLS=(XTX)-1XTy
Nun wird die Lösung β Ridge = ( X T X + λ I ) - 1 X T y So werden wir diese Zugabe λ I auf den Diagonalen der Matrix (der Grat bezeichnet)daß wir Invertzucker. Der Effekt, den dies auf die Matrix X T X hat, ist, dass esdie Determinante der Matrix von Null weg"zieht". Wenn Sie es also invertieren, erhalten Sie keine großen Eigenwerte. Dies führt jedoch zu einer weiteren interessanten Tatsache, nämlich dass die Varianz der Parameterschätzungen geringer wird.
argMindestβ||y-Xβ||2+λ||β||2λ>0
β^Grat=(XTX+λich)-1XTy
λichXTX

Ich bin mir nicht sicher, ob ich eine klarere Antwort geben kann. Auf die Kovarianzmatrix für die Parameter im Modell und die Größe der Werte in dieser Kovarianzmatrix kommt es an.

Ich habe als Beispiel die Gratregression genommen, weil das viel einfacher zu behandeln ist. Das Lasso ist viel schwieriger und es gibt immer noch aktive Forschung zu diesem Thema.

Diese Folien enthalten weitere Informationen, und dieser Blog enthält auch einige relevante Informationen.

EDIT: Was ich damit meine durch den Grat Zugabe der Determinante „ gezogen “ von Null weg?

XTX

det(XTX-tich)=0
t
det(XTX+λich-tich)=0
det(XTX-(t-λ)ich)=0
(t-λ)tichtich+λλ

Hier ist ein R-Code, um dies zu veranschaulichen:

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

Welches gibt die Ergebnisse:

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

Alle Eigenwerte werden also um genau 3 nach oben verschoben.

Sie können dies auch allgemein beweisen, indem Sie den Gershgorin-Kreissatz verwenden . Dort sind die Zentren der Kreise, die die Eigenwerte enthalten, die diagonalen Elemente. Sie können dem diagonalen Element immer "genug" hinzufügen, um alle Kreise in der positiven realen Halbebene zu erstellen. Dieses Ergebnis ist allgemeiner und wird dafür nicht benötigt.

Gumeo
quelle
Können Sie erklären, wie es die Determinante (mathematisch) von Null "wegzieht"? Thanks
user10024395
@ user2675516 Ich habe meine Antwort bearbeitet.
Gumeo
"Das heißt, wenn Sie einen anderen unverzerrten Schätzer verwenden, ist die Varianz zwangsläufig höher als bei der OLS-Lösung." Du meinst höhere Voreingenommenheit als OLS? Ich dachte, OLS hat die geringste Voreingenommenheit, also hätte alles andere eine höhere Voreingenommenheit. Bitte klarstellen
GeorgeOfTheRF
@ML_Pro OLS hat keine Abweichung, und von allen unverzerrten Schätzern hat es die kleinste Abweichung. Dies ist ein Satz . Wenn Sie sich also für eine andere Variante entscheiden, steigt die Varianz. Aber wenn Sie regulieren, führen Sie Voreingenommenheit ein.
Gumeo
Vielen Dank! Ihre Antwort hat mich neugierig gemacht. Können Sie diese neue Frage, die ich erstellt habe, beantworten? stats.stackexchange.com/questions/294926/…
GeorgeOfTheRF
2

Ridge Regression

L2 = (y-xβ) ^ 2 + λ∑βi ^ 2

Löst man diese Gleichung vorerst nur für ein β und letzteres kann man verallgemeinern:

Also ist (y-xβ) ^ 2 + λβ ^ 2 unsere Gleichung für ein β.

Unser Ziel ist es, die obige Gleichung zu minimieren, um dies tun zu können, dies mit Null gleichzusetzen und die Ableitungen für β zu nehmen

Y ^ 2- 2xyβ + x ^ 2β ^ 2 + λβ ^ 2 = 0 ------- Unter Verwendung von (ab) ^ 2 Expansion

Teilweise Ableitungen gew

-2xy + 2x ^ 2β + 2βλ = 0

2β (x ^ 2 + λ) = 2xy

β = 2xy / 2 (x ^ 2 + λ)

Schließlich

β = xy / (x ^ 2 + λ)

Wenn Sie den Nenner beobachten, wird er niemals Null, da wir einen Wert von λ addieren (dh einen Hyperparameter). Und deshalb wird der Wert von β so niedrig wie möglich sein, aber nicht Null werden.

LASSO-Regression:

L1 = (y-xβ) ^ 2 + λ∑ | β |

Wird diese Gleichung vorerst nur für ein β gelöst und letzteres kann auf mehrere β verallgemeinert werden:

Also, (y-xβ) ^ 2 + λβ das ist unsere Gleichung für ein β. Hier habe ich + ve Wert von β berücksichtigt.

Unser Ziel ist es, die obige Gleichung zu minimieren, um dies tun zu können, dies mit Null gleichzusetzen und die Ableitungen für β zu nehmen

Y ^ 2- 2xyβ + x ^ 2β ^ 2 + λβ = 0 ------- Unter Verwendung von (ab) ^ 2 Expansion

Teilweise Ableitungen gew

-2xy + 2x ^ 2β + λ = 0

2x ^ 2β + λ = 2xy

2x ^ 2β = 2xy-λ

Schließlich

β = (2xy-λ) / (2X ^ 2)

Wenn Sie den Zähler beobachten, wird er zu Null, da wir einen Wert von λ (dh einen Hyperparameter) subtrahieren. Und deshalb wird der Wert von β auf Null gesetzt.

Chetan Patil
quelle