Für das LASSO (und andere Modellauswahlverfahren) ist es entscheidend, die Prädiktoren neu zu skalieren. Die allgemeine Empfehlung, der ich folge, ist einfach, eine Normierung mit 0 Mittelwerten und 1 Standardabweichung für kontinuierliche Variablen zu verwenden. Aber was gibt es mit Dummies zu tun?
ZB einige angewandte Beispiele aus derselben (ausgezeichneten) Sommerschule, die ich verlinkt habe, skalieren stetige Variablen neu auf 0 bis 1 (allerdings nicht großartig bei Ausreißern), wahrscheinlich um mit den Dummies vergleichbar zu sein. Aber auch das garantiert nicht, dass die Koeffizienten in der gleichen Größenordnung liegen sollten, und bestraft damit in ähnlicher Weise den Hauptgrund für eine Neuskalierung, oder?
Antworten:
Laut Tibshirani ( DIE LASSO-METHODE ZUR VARIABLEN AUSWAHL IM COX-MODELL, Statistics in Medicine, Bd. 16, S. 385-395 (1997) ), der das Buch über Regularisierungsmethoden buchstäblich verfasst hat, sollten Sie die Dummies standardisieren. Sie verlieren dann jedoch die einfache Interpretierbarkeit Ihrer Koeffizienten. Wenn Sie dies nicht tun, befinden sich Ihre Variablen nicht auf einem ausgeglichenen Spielfeld. Sie geben im Wesentlichen den Ausschlag für Ihre stetigen Variablen (höchstwahrscheinlich). Wenn Ihr primäres Ziel also die Modellauswahl ist, ist dies ein ungeheurer Fehler. Wenn Sie sich jedoch mehr für Dolmetschen interessieren, ist dies möglicherweise nicht die beste Idee.
Die Empfehlung finden Sie auf Seite 394:
quelle
Sehenswert ist auch der Blog-Beitrag von Andrew Gelman, wann man Regressionseingaben standardisieren und wann man sie in Ruhe lässt. Dieser Teil ist insbesondere relevant:
quelle
x -> x / 2
Dies ist eher ein Kommentar, aber zu lang. Eine der am häufigsten verwendeten Software für Lasso (und Freunde) ist R's
glmnet
. Auf der Hilfeseite gedruckt von?glmnet
:quelle