Kamm, Lasso und elastisches Netz

33

Wie vergleichen sich Ridge-, LASSO- und Elasticnet-Regularisierungsmethoden? Was sind ihre jeweiligen Vor- und Nachteile? Gute technische Artikel oder Vorlesungsunterlagen sind ebenfalls willkommen.

references lasso regularization ridge-regression elastic-net user3269
quelle

39

In dem Buch The Elements of Statistical Learning beschreiben Hastie et al. bieten einen sehr aufschlussreichen und gründlichen Vergleich dieser Schrumpftechniken. Das Buch ist online verfügbar ( pdf ). Der Vergleich erfolgt in Abschnitt 3.4.3, Seite 69.

Der Hauptunterschied zwischen Lasso und Ridge ist der von ihnen verwendete Strafausdruck. Ridge verwendet einen -Strafausdruck, der die Größe des Koeffizientenvektors begrenzt. Lasso verwendet die Strafe die die Koeffizienten sparsam macht und so das angepasste Modell interpretierbarer macht. Elasticnet wird als Kompromiss zwischen diesen beiden Techniken eingeführt und hat eine Strafe, die eine Mischung aus und -Normen darstellt. $L_2$ $L_1$ $L_1$ $L_2$

MMM
quelle

3

Das ist ein wunderbares Nachschlagewerk.

Bdeonovic

4

auch weil die Autoren die Erfinder dieser Techniken sind!

Bakaburg

1

Vielen Dank, dass Sie uns einen Hinweis auf dieses wunderschöne Buch gegeben haben

Christina,

1

Ich kann Abschnitt 18.4 auf den Seiten 661-668 nur empfehlen. Bietet weitere Informationen zu Lasso und elastischem Netz.

Katya Handler

1

Der Link zum Buch ist am 14. Oktober 2016

Ashe

22

Zusammenfassend sind hier einige hervorstechende Unterschiede zwischen Lasso, Ridge und Elastic-net:

Lasso wählt spärlich aus , Ridge nicht.
Wenn Sie stark korrelierte Variablen haben , verkleinert die Ridge-Regression die beiden Koeffizienten gegeneinander. Lasso ist etwas gleichgültig und greift in der Regel übereinander. Je nach Kontext weiß man nicht, welche Variable ausgewählt wird. Elastic-Net ist ein Kompromiss zwischen den beiden, der versucht, zu schrumpfen und gleichzeitig eine geringe Auswahl zu treffen.
$\lambda$ $\lambda$
$\beta$

Balaks
quelle

@ balaks für den zweiten Punkt, den Sie gemacht haben, was bedeutet es, dass man nicht weiß, welche Variable ausgewählt wird? Meinten Sie, LASSO ist gleichgültig, so dass es zufällig eine auswählt, sodass wir nicht wirklich wissen, welche die beste ist?

MeTchaikovsky

4

Ich habe Ihnen dringend empfohlen, sich eine Einführung in das statistische Lernbuch anzuschauen (Tibshirani et al., 2013).

Der Grund dafür ist, dass Elemente des statistischen Lernbuchs für Personen mit fortgeschrittener Ausbildung in den mathematischen Wissenschaften gedacht sind. Im Vorwort zu ISL schreiben die Autoren:

Eine Einführung in das statistische Lernen ergab sich aus der empfundenen Notwendigkeit einer breiteren und weniger technischen Behandlung dieser Themen. [...]

Eine Einführung in das statistische Lernen ist für fortgeschrittene Studenten oder Masterstudenten in Statistik oder verwandten quantitativen Bereichen oder für Personen in anderen Disziplinen geeignet, die statistische Lernwerkzeuge zur Analyse ihrer Daten verwenden möchten.

jeza
quelle

1

Können Sie erläutern, warum Sie diese Referenz für nützlich hielten?

JM ist kein Statistiker

1

Es ist in Ordnung, ein Buch zu zitieren, aber bitte markieren Sie es als Zitat und nicht als Ihren eigenen Text. Ansonsten ist es Plagiat. Ich habe es jetzt für dich bearbeitet.

Amöbe sagt Reinstate Monica

1

Die obigen Antworten sind sehr klar und informativ. Aus statistischer Sicht möchte ich einen kleinen Punkt hinzufügen. Nehmen Sie die Gratregression als Beispiel. Es ist eine Erweiterung der ordinalen Regression kleinster Quadrate, um die Multikollinearitätsprobleme zu lösen, wenn es viele korrelierte Merkmale gibt. Wenn die lineare Regression ist

Y=Xb+e

Die normale Gleichungslösung für die multiple lineare Regression

b=inv(X.T*X)*X.T*Y

Die normale Gleichungslösung für die Gratregression ist

b=inv(X.T*X+k*I)*X.T*Y.

Es ist ein verzerrter Schätzer für b, und wir können immer einen Strafterm k finden, der den mittleren quadratischen Fehler der Ridge-Regression kleiner als den der OLS-Regression macht.

Für LASSO und Elastic-Net konnten wir keine solche analytische Lösung finden.

Emma
quelle

Kamm, Lasso und elastisches Netz

Antworten: