Das ursprüngliche elastische Netzpapier Zou & Hastie (2005) Regularisierung und Variablenauswahl über das elastische Netz führten die elastische Nettoverlustfunktion für die lineare Regression ein (hier gehe ich davon aus, dass alle Variablen zentriert und auf die Einheitsvarianz skaliert sind):
Die nachfolgende glmnet
Veröffentlichung Friedman, Hastie, & Tibshirani (2010) Regularisierungspfade für verallgemeinerte lineare Modelle über Koordinatenabstieg verwendeten diese Neuskalierung jedoch nicht und enthielten nur eine kurze Fußnote
Zou und Hastie (2005) nannten diese Strafe das naive elastische Netz und bevorzugten eine neu skalierte Version, die sie elastisches Netz nannten. Wir lassen diese Unterscheidung hier fallen.
Dort (oder in einem der Lehrbücher von Hastie et al.) Wird keine weitere Erklärung gegeben. Ich finde es etwas rätselhaft. Haben die Autoren die Neuskalierung weggelassen, weil sie sie für zu ad hoc hielten ? weil es in einigen weiteren experimenten schlechter lief? weil es nicht klar war, wie man es auf den GLM-Fall verallgemeinern soll? Ich habe keine Ahnung. Aber auf jeden Fall wurde das glmnet
Paket seitdem sehr populär und so habe ich den Eindruck, dass heutzutage niemand die Neuskalierung von Zou & Hastie verwendet, und die meisten Leute sind sich dieser Möglichkeit wahrscheinlich nicht einmal bewusst.
Frage: War diese Neuskalierung schließlich eine gute oder eine schlechte Idee?
Mit glmnet
Parametrisierung, Zou & Hastie Neuskalierung sollte β * = ( 1 + λ ( 1 - α ) ) β .
quelle
glmnet
Code herauslassen. Es ist dort nicht einmal als optionale Funktion verfügbar (der frühere Code, der dem Artikel von 2005 beiliegt, unterstützt natürlich die Neuskalierung).Antworten:
Ich schickte diese Frage per E-Mail an Zou und Hastie und erhielt die folgende Antwort von Hastie (ich hoffe, es würde ihm nichts ausmachen, wenn ich sie hier zitiere):
Ich interpretiere diese Worte als eine Bestätigung von irgendeiner Form von der Vanille elastischer Netzlösung „neu zu skalieren“, aber Hastie scheint nicht mehr stehen zu dem besonderen Ansatz nach vorn 2005 in Zou & Hastie setzen.
Im Folgenden werde ich einige Skalierungsoptionen kurz überprüfen und vergleichen.
glmnet
Das in der oben genannten E-Mail von Hastie erwähnte entspannte Lasso ist ein Vorschlag, ein weiteres Lasso für die vom ersten Lasso ausgewählte Teilmenge von Prädiktoren auszuführen. Die Idee ist, zwei verschiedene Strafen zu verwenden und beide durch Kreuzvalidierung auszuwählen . Man könnte dieselbe Idee auf das elastische Netz anwenden, aber dies scheint vier verschiedene Regularisierungsparameter zu erfordern, und deren Einstellung ist ein Albtraum.
Ich schlage einen einfacheren vorβ^ α = 0 λ
Zumindest in diesen Daten übertreffen alle drei Ansätze den Schätzer für das elastische Vanillenetz, und "entspanntes elastisches Netz" erzielt die beste Leistung.
quelle