Bayesianisches Lasso gegen gewöhnliches Lasso

24

Für Lasso stehen verschiedene Implementierungssoftware zur Verfügung . Ich kenne eine Menge Diskussionen über Bayes-Ansätze im Vergleich zu frequentistischen Ansätzen in verschiedenen Foren. Meine Frage ist sehr spezifisch für Lasso - Was sind die Unterschiede oder Vorteile von Bay-Lasso gegenüber regulärem Lasso ?

Hier sind zwei Beispiele für die Implementierung im Paket:

# just example data
set.seed(1233)
X <- scale(matrix(rnorm(30),ncol=3))[,]
set.seed(12333)
Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1)

require(monomvn) 
## Lasso regression
reg.las <- regress(X, Y, method="lasso")

## Bayesian Lasso regression
reg.blas <- blasso(X, Y)

Wann sollte ich mich für die eine oder andere Methode entscheiden? Oder sind sie gleich?

rdorlearn
quelle

Antworten:

30

Das Standard-Lasso verwendet eine L1-Regularisierungsstrafe , um eine geringe Regressionsrate zu erzielen. Beachten Sie, dass dies auch als Basisverfolgung bezeichnet wird .

Im Bayes'schen Rahmen ist die Wahl des Regularisierers analog zu der Wahl des Priorisierers gegenüber den Gewichten. Wenn ein Gaußscher Prior verwendet wird, entspricht die Maximum-a-Posteriori-Lösung (MAP) derjenigen, bei der eine L2-Strafe verwendet wurde. Obwohl dies nicht direkt äquivalent ist, erzeugt der Laplace-Prior (der im Gegensatz zum Gaußschen, der rund um Null glatt ist, einen scharfen Peak aufweist) den gleichen Schrumpfeffekt wie der L1-Abzug. Dieses Papier beschreibt das Bayes'sche Lasso. .

Wenn Sie ein Laplace vor den Parametern platzieren, sollte die MAP-Lösung identisch (nicht nur ähnlich) mit der Regularisierung mit der L1-Strafe sein, und das Laplace vor wird einen identischen Schrumpfeffekt wie die L1-Strafe erzeugen. Aufgrund von Annäherungen in der Bayes'schen Inferenzprozedur oder anderen numerischen Problemen sind die Lösungen jedoch möglicherweise nicht identisch.

In den meisten Fällen sind die mit beiden Methoden erzielten Ergebnisse sehr ähnlich. Abhängig von der Optimierungsmethode und davon, ob Approximationen verwendet werden, ist das Standard-Lasso wahrscheinlich effizienter zu berechnen als die Bayes'sche Version. Der Bayes'sche Algorithmus erstellt automatisch Intervallschätzungen für alle Parameter, einschließlich der Fehlervarianz, sofern diese erforderlich sind.

tdc
quelle
Msgstr "Wenn ein Gaußscher Prior verwendet wird, ist die Maximum Likelihood - Lösung dieselbe ....". Der hervorgehobene Ausdruck sollte "Maximum A Posteriori (MAP)" lauten, da die Maximum-Likelihood-Schätzung die vorherige Verteilung über die Parameter einfach ignoriert, was zu einer unregelmäßigen Lösung führt, während die MAP-Schätzung die vorherige berücksichtigt.
mefathy
1
Wenn Sie ein Laplace vor die Parameter setzen, ist die MAP-Lösung identisch (nicht nur ähnlich) mit der Regularisierung mit der L1-Strafe, und das Laplace vor erzeugt einen identischen Schrumpfeffekt wie die L1-Strafe.
mefathy
@mefathy ja du hast in beiden Punkten recht (kann nicht glauben, dass ich ML anstelle von MAP geschrieben habe ....), obwohl natürlich in der Praxis YMMV. Ich habe die Antwort aktualisiert, um beide Kommentare aufzunehmen.
tdc
6

"Kleinste Quadrate" bedeutet, dass die Gesamtlösung die Summe der Quadrate der Fehler minimiert, die in den Ergebnissen jeder einzelnen Gleichung auftreten. Die wichtigste Anwendung liegt in der Datenanpassung. Die beste Anpassung im Sinne der kleinsten Quadrate minimiert die Summe der quadratischen Residuen, wobei ein Residuum die Differenz zwischen einem beobachteten Wert und dem von einem Modell bereitgestellten angepassten Wert ist. Probleme mit den kleinsten Quadraten fallen in zwei Kategorien: lineare oder gewöhnliche kleinste Quadrate und nicht-quadratische Residuen. lineare kleinste Quadrate, abhängig davon, ob die Residuen in allen Unbekannten linear sind oder nicht.

Die Bayes'sche lineare Regression ist ein Ansatz zur linearen Regression, bei dem die statistische Analyse im Kontext der Bayes'schen Inferenz durchgeführt wird. Wenn das Regressionsmodell Fehler aufweist, die normalverteilt sind, und wenn eine bestimmte Form der vorherigen Verteilung angenommen wird, sind explizite Ergebnisse für die posterioren Wahrscheinlichkeitsverteilungen der Modellparameter verfügbar.

In einigen Kontexten kann eine regulierte Version der Lösung der kleinsten Quadrate vorzuziehen sein. Die Tikhonov-Regularisierung (oder Ridge-Regression) fügt eine Einschränkung hinzu, dass , die L2-Norm des Parametervektors, nicht größer als ein gegebener Wert ist. In einem Bayes'schen Kontext entspricht dies der Platzierung eines normalverteilten Nullmittelwerts vor dem Parametervektor.β2

Eine alternative regulierte Version der kleinsten Quadrate ist Lasso (Operator für die kleinste absolute Schrumpfung und Auswahl), der die Bedingung verwendet, dass , die L1-Norm des Parametervektors, nicht größer als ein gegebener Wert ist . In einem Bayes'schen Kontext entspricht dies dem Platzieren einer Laplace-Prioritätsverteilung mit dem Mittelwert Null auf dem Parametervektor.β1

Einer der Hauptunterschiede zwischen Lasso und Ridge-Regression besteht darin, dass bei Ridge-Regression mit zunehmender Strafe alle Parameter reduziert werden, während sie immer noch ungleich Null bleiben. Bei Lasso führt eine Erhöhung der Strafe dazu, dass immer mehr Parameter auftreten auf Null gefahren.

In diesem Artikel wird das reguläre Lasso mit dem Bayes'schen Lasso und der Gratregression verglichen (siehe Abbildung 1 ).

John
quelle