Wie vergleichen sich Ridge-, LASSO- und Elasticnet-Regularisierungsmethoden? Was sind ihre jeweiligen Vor- und Nachteile? Gute technische Artikel oder Vorlesungsunterlagen sind ebenfalls willkommen.
33
Wie vergleichen sich Ridge-, LASSO- und Elasticnet-Regularisierungsmethoden? Was sind ihre jeweiligen Vor- und Nachteile? Gute technische Artikel oder Vorlesungsunterlagen sind ebenfalls willkommen.
In dem Buch The Elements of Statistical Learning beschreiben Hastie et al. bieten einen sehr aufschlussreichen und gründlichen Vergleich dieser Schrumpftechniken. Das Buch ist online verfügbar ( pdf ). Der Vergleich erfolgt in Abschnitt 3.4.3, Seite 69.
Der Hauptunterschied zwischen Lasso und Ridge ist der von ihnen verwendete Strafausdruck. Ridge verwendet einen -Strafausdruck, der die Größe des Koeffizientenvektors begrenzt. Lasso verwendet die Strafe L 1, die die Koeffizienten sparsam macht und so das angepasste Modell interpretierbarer macht. Elasticnet wird als Kompromiss zwischen diesen beiden Techniken eingeführt und hat eine Strafe, die eine Mischung aus L 1 - und L 2 -Normen darstellt.
Zusammenfassend sind hier einige hervorstechende Unterschiede zwischen Lasso, Ridge und Elastic-net:
quelle
Ich habe Ihnen dringend empfohlen, sich eine Einführung in das statistische Lernbuch anzuschauen (Tibshirani et al., 2013).
Der Grund dafür ist, dass Elemente des statistischen Lernbuchs für Personen mit fortgeschrittener Ausbildung in den mathematischen Wissenschaften gedacht sind. Im Vorwort zu ISL schreiben die Autoren:
quelle
Die obigen Antworten sind sehr klar und informativ. Aus statistischer Sicht möchte ich einen kleinen Punkt hinzufügen. Nehmen Sie die Gratregression als Beispiel. Es ist eine Erweiterung der ordinalen Regression kleinster Quadrate, um die Multikollinearitätsprobleme zu lösen, wenn es viele korrelierte Merkmale gibt. Wenn die lineare Regression ist
Die normale Gleichungslösung für die multiple lineare Regression
Die normale Gleichungslösung für die Gratregression ist
Es ist ein verzerrter Schätzer für b, und wir können immer einen Strafterm k finden, der den mittleren quadratischen Fehler der Ridge-Regression kleiner als den der OLS-Regression macht.
Für LASSO und Elastic-Net konnten wir keine solche analytische Lösung finden.
quelle