Auswahl des Bereichs und der Gitterdichte für den Regularisierungsparameter in LASSO

In der Zwischenzeit studiere ich LASSO (Operator für geringste absolute Schrumpfung und Auswahl). Ich sehe, dass der optimale Wert für den Regularisierungsparameter durch Kreuzvalidierung ausgewählt werden kann. Ich sehe auch in der Gratregression und vielen Methoden, die Regularisierung anwenden, dass wir CV verwenden können, um den optimalen Regularisierungsparameter zu finden (sagen Strafe). Jetzt geht es bei meiner Frage um Anfangswerte für die obere und untere Grenze des Parameters und darum, wie die Länge der Sequenz bestimmt werden kann.

Um genau zu sein, gehen wir von einem LASSO Problem haben und wir wollen den optimalen Wert für die Strafe . Wie können wir dann eine Unter- und Obergrenze für wählen

L o g L i k e l i h o o d = (y - x β)^{'} (y - x β) + λ \sum | β |_{1}

$LogLikelihood = (y-x\beta)'(y-x\beta) + \lambda \sum|\beta|_1$

λ

$\lambda$

λ \in [a = ?, b = ?]

$\lambda \in [a=?,b=?]$ ? und wie viele Teilungen zwischen diesen beiden Werten

\frac{(b - a)}{k = ?}

$\frac{(b-a)}{k=?}$

lasso regularization shrinkage TPArrow
quelle

Verwandte Frage hier .

Richard Hardy

Mögliches Duplikat der Gitterfeinheit und Überanpassung durch Regularisierung (LASSO, Grat, elastisches Netz)

Sycorax sagt Reinstate Monica

Antworten:

Diese Methode wird im glmnet-Artikel Regularisierungspfade für verallgemeinerte lineare Modelle über Koordinatenabstieg beschrieben . Obwohl die Methodik hier sowohl für den allgemeinen Fall der als auch der -Regulierung gilt, sollte sie auch für das LASSO (nur ) gelten. $L^1$ $L^2$ $L^1$

Die Lösung für das Maximum ist in Abschnitt 2.5 angegeben. $\lambda$

Wenn , sehen wir aus (5), dass bei Null bleibt $\tilde\beta = 0$ $\tilde\beta_j$ . Daher ist $\frac{1}{N} | \langle x_j , y \rangle | < \lambda \alpha$ $N \alpha \lambda_{max} = \max_l | \langle x_l , y \rangle |$

$\lambda > \lambda_{max}$

$\lambda_{min}$ $\lambda_{min} = 0.001 * \lambda_{max}$ $100$

Dies funktioniert in der Praxis gut. Bei meiner umfangreichen Verwendung von glmnet habe ich dieses Gitter nie als zu grob empfunden.

$L^1$ $\lambda$

$\beta = 0$ $\lambda_{max}$ $L^1$

Probengewichte erschweren ebenfalls die Situation, die inneren Produkte müssen an geeigneten Stellen durch gewichtete innere Produkte ersetzt werden.

Matthew Drury
quelle