Wann sollte ich Lasso vs Ridge verwenden?

167

Angenommen, ich möchte eine große Anzahl von Parametern schätzen und einige davon benachteiligen, weil ich der Meinung bin, dass sie im Vergleich zu den anderen nur geringe Auswirkungen haben sollten. Wie entscheide ich mich für ein Strafschema? Wann ist eine Kammregression angemessener? Wann sollte ich Lasso verwenden?

Larry Wang
quelle
"Angenommen, ich möchte eine große Anzahl von Parametern schätzen", könnte dies präzisiert werden: Was ist der Rahmen? Ich denke, es ist eine lineare Regression?
Robin Girard
2
Eine ähnliche Frage wurde gerade zu metaoptimize gestellt (wobei zu berücksichtigen ist, dass l1 = LASSO und l2 = ridge): metaoptimize.com/qa/questions/5205/…
Gael Varoquaux
Sie sagen "Lasso gegen Grat", als ob es nur zwei Möglichkeiten gäbe - was ist mit verallgemeinertem Doppelpareto, Hufeisen, Bma, Brücke unter anderem?
Wahrscheinlichkeitsrechnung

Antworten:

106

Denken Sie daran, dass die Gratregression Koeffizienten nicht auf Null setzen kann. Sie schließen also entweder alle oder keine Koeffizienten in das Modell ein. Im Gegensatz dazu führt der LASSO sowohl die Parameterschrumpfung als auch die Variablenauswahl automatisch durch. Wenn einige Ihrer Kovariaten stark korreliert sind, sollten Sie sich das elastische Netz [3] anstelle des LASSO ansehen.

Ich würde persönlich empfehlen, die nicht negative Garotte (NNG) [1] zu verwenden, da sie in Bezug auf Schätzung und Variablenauswahl konsistent ist [2]. Im Gegensatz zu LASSO und Gratregression erfordert NNG eine anfängliche Schätzung, die dann zum Ursprung hin geschrumpft wird. In der Originalarbeit empfiehlt Breiman die Lösung der kleinsten Fehlerquadrate für die anfängliche Schätzung (Sie können jedoch die Suche auch von einer Gratregressionslösung aus starten und den Strafparameter mit etwas wie GCV auswählen).

In Bezug auf die verfügbare Software habe ich das ursprüngliche NNG in MATLAB implementiert (basierend auf Breimans ursprünglichem FORTRAN-Code). Sie können es herunterladen von:

http://www.emakalic.org/blog/wp-content/uploads/2010/04/nngarotte.zip

Übrigens, wenn Sie eine Bayes'sche Lösung bevorzugen, lesen Sie [4,5].

Verweise:

[1] Breiman, L. Better Subset Regression Using The Non-Negative Garrote Technometrics, 1995, 37, 373-384

[2] Yuan, M. & Lin, Y. Zum nicht-negativen Garrotte Estimator Journal der Royal Statistical Society (Reihe B), 2007, 69, 143-161

[3] Zou, H. & Hastie, T. Regularisierung und variable Auswahl über das elastische Netz Journal der Royal Statistical Society (Reihe B), 2005, 67, 301-320

[4] Park, T. & Casella, G., Bayesian Lasso Journal der American Statistical Association, 2008, 103, 681-686

[5] Kyung, M .; Gill, J .; M. Ghosh & G. Casella, Penalized Regression, Standard Errors und Bayesian Lassos Bayesian Analysis, 2010, 5, 369-412

emakalisch
quelle
2
Könnten Sie genauer auf Grat gegen Lasso eingehen? Ist die automatische Variablenauswahl der einzige Grund, Lasso zu bevorzugen?
Chogg
42

Grat oder Lasso sind Formen regulierter linearer Regressionen. Die Regularisierung kann auch als vorrangig in einem Maximum-a-posteriori-Schätzverfahren interpretiert werden. Bei dieser Interpretation treffen der Grat und das Lasso unterschiedliche Annahmen über die Klasse der linearen Transformation, aus der sie schließen, dass sie Eingabe- und Ausgabedaten in Beziehung setzen. Im Kamm sind die Koeffizienten der linearen Transformation normalverteilt und im Lasso sind sie Laplace-verteilt. Im Lasso ist es dadurch einfacher, dass die Koeffizienten Null sind, und es ist daher einfacher, einen Teil Ihrer Eingabevariablen zu entfernen, da sie nicht zur Ausgabe beitragen.

Es gibt auch einige praktische Überlegungen. Der Grat ist etwas einfacher zu implementieren und schneller zu berechnen, was je nach Art der Daten von Bedeutung sein kann.

Wenn Sie beide implementiert haben, verwenden Sie Teilmengen Ihrer Daten, um die Kante und das Lasso zu finden und zu vergleichen, wie gut sie mit den ausgelassenen Daten funktionieren. Die Fehler sollten Ihnen eine Vorstellung davon geben, welche Sie verwenden sollen.

Hbar
quelle
8
Ich verstehe es nicht - woher wissen Sie, ob Ihre Koeffizienten Laplace oder normalverteilt sind?
Ihadanny
1
Warum lässt sich die Ridge-Regression schneller berechnen?
Archie
4
@Hbar: "Die Regularisierung kann in einem Maximum-a-posteriori-Schätzverfahren auch als vorrangig interpretiert werden.": Könnten Sie diesen Teil bitte mit mathematischen Symbolen näher erläutern oder zumindest eine Referenz angeben? Vielen Dank!
Mathmath
2
@ihadanny Du würdest es höchstwahrscheinlich nicht wissen, und darum geht es. Sie können nur entscheiden, welche Sie im Nachhinein behalten möchten .
Firebug
30

Wenn Sie viele kleine / mittlere Effekte haben, sollten Sie im Allgemeinen mit Ridge arbeiten. Wenn Sie nur wenige Variablen mit einem mittleren / großen Effekt haben, wählen Sie Lasso. Hastie, Tibshirani, Friedman

Gary
quelle
4
Wenn Sie jedoch einige Variablen haben, möchten Sie diese möglicherweise in Ihren Modellen behalten, wenn sie mittlere oder große Auswirkungen haben. Dies ist im Lasso nicht der Fall, da dadurch möglicherweise eine davon entfernt wird. Können Sie das bitte näher erläutern? Ich denke, wenn Sie viele Variablen haben, verwenden wir Lasso, um unnötige Variablen zu entfernen, und nicht um Kanten zu entfernen.
Aditya Bhandari