Warum entspricht die Lasso-Strafe der doppelten Exponentialzahl (Laplace) vor?

27

Ich habe in einer Reihe von Referenzen gelesen, dass die Lasso-Schätzung für den Regressionsparametervektor dem posterioren Modus von in dem die vorherige Verteilung für jedes eine doppelte Exponentialverteilung ist (auch als Laplace-Verteilung bekannt).BBBi

Ich habe versucht, dies zu beweisen, kann jemand die Details ausarbeiten?

Wintermute
quelle
@ user777 Ich habe das Buch heute eine Weile durchgesehen. Konnte nichts Relevantes finden.
Wintermute

Antworten:

30

Betrachten wir der Einfachheit halber nur eine einzige Beobachtung einer Variablen so dass Y

Y|μ,σ2N(μ,σ2),

f ( σ ) 1 σ > 0μLaplace(λ) und das falsche vorherige .f(σ)1σ>0

Dann ist die gemeinsame Dichte von proportional zu Y.,μ,σ2

f(Y.,μ,σ2|λ)1σexp(-(y-μ)2σ2)×2λe-λ|μ|.

Erstellen eines Protokolls und Löschen von Begriffen, bei denen es sich nicht um , μ

Logf(Y.,μ,σ2)=-1σ2y-μ22-λ|μ|.(1)

Somit ist das Maximum von (1) eine MAP-Schätzung und in der Tat das Lasso-Problem, nachdem wir reparametrisiert haben . λ~=λσ2

Die Erweiterung der Regression ist klar: Ersetzen Sie mit in der normalen Wahrscheinlichkeit, und setzen Sie den vorherigen Wert für auf eine Folge unabhängiger Laplace- Verteilungen .X β β ( λ )μXββ(λ)

Andrew M
quelle
25

Dies wird durch die Überprüfung der Menge deutlich, die der LASSO optimiert.

Nehmen Sie den Prior für als unabhängiges Laplace mit mittlerer Null und einer gewissen Skalierung . τβiτ

Also .p(β|τ)e12τi|βi|

Das Modell für die Daten ist die übliche Regressionsannahme .yiidN(Xβ,σ2)

f(y|X,β,σ2)(σ2)-n/2exp(-12σ2(y-Xβ)T(y-Xβ))

Jetzt ist minus das Doppelte des Logbuchs des Seitenzahns von der Form

1k(σ2,τ,n,p)+ 1σ2(y-Xβ)T(y-Xβ)+1τich|βich|

Lassen Sie und wir erhalten -posterior von- 2 logλ=σ2/τ-2Log

1k(σ2,λ,n,p)+ 1σ2[(yXβ)T(yXβ)+λi|βi|]

Der MAP-Schätzer für minimiert das oben Gesagte, wodurch es minimiert wirdβ

S=(yXβ)T(yXβ)+λi|βi|

Der MAP-Schätzer für ist also LASSO.β

(Hier habe ich als effektiv behoben behandelt, aber Sie können andere Dinge damit tun und trotzdem LASSO herausbringen.)σ2

Bearbeiten: Das ist, was ich zum Verfassen einer Antwort offline erhalten; Ich habe keine gute Antwort gesehen, die bereits von Andrew gepostet wurde. Meins tut wirklich nichts, was er nicht schon tut. Ich lasse meins vorerst, da es ein paar Details zur Entwicklung in Bezug auf .β

Glen_b - Setzen Sie Monica wieder ein
quelle
1
Es scheint einen Unterschied zwischen Ihrer und der von Andrew zu geben. Ihre Antwort hat die richtige Form des Regularisierers: , während AndrewIn der linearen Regression erhalten wir . λ | μ | μ = X βλβ1λ|μ|μ=Xβ
Alex R.
2
@AlexR Ich glaube, Sie interpretieren das μ in Andrews Antwort falsch. Das μ dort entspricht a in einer Regression mit nur einem Achsenabschnitt, nicht in einer multiplen Regression; Das gleiche Argument folgt für den größeren Fall (beachten Sie die Parallelen mit meiner Antwort), aber es ist einfacher, im einfachen Fall zu folgen. Andrews Antwort ist im Wesentlichen richtig, verbindet jedoch nicht alle Punkte mit der ursprünglichen Frage, sodass der Leser eine kleine Menge ausfüllen kann. Ich denke, dass unsere Antworten konsistent sind (bis auf einige geringfügige Unterschiede in Bezug auf σ, die berücksichtigt werden können). und dass er die Zecke voll verdient hat X ββ0Xβ
Glen_b