Lasso-Modifikation für LARS

12

Ich versuche zu verstehen, wie der Lars-Algorithmus modifiziert werden kann, um Lasso zu erzeugen. Obwohl ich LARS verstehe, kann ich die Lasso-Modifikation aus dem Artikel von Tibshirani et al. Nicht sehen. Insbesondere verstehe ich nicht, warum die Vorzeichenbedingung darin, dass das Vorzeichen der Nicht-Null-Koordinate mit dem Vorzeichen der aktuellen Korrelation übereinstimmen muss. Kann mir bitte jemand dabei helfen. Ich schätze, ich suche einen mathematischen Beweis unter Verwendung der KKT-Bedingung für das ursprüngliche L-1-Normproblem, dh das Lasso. Vielen Dank!

lasso Neuling
quelle

Beziehen Sie sich auf Efron et al. Stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf ? Das beweist Lemma 8 in Abschnitt 5. Oder verstehe ich Ihre Frage falsch?

Peter Ellis

1

Ich bin mir auch nicht sicher, aber das Lasso ist eine Vereinfachung des Lars: Für Lasso suchen Sie nur nach positiven Korrelationen zwischen dem aktuellen Residuum und den verbleibenden Basisfunktionen, da nur positive Korrelationen zu positiven führen (~ nicht negative) Koeffizienten.

Mr. White

2

Es sei (Größe ) eine Menge standardisierter Eingaben, (Größe ) zentrierte Antworten, (Größe ) Regressionsgewichte und a $X$ $n\times p$ $y$ $n \times 1$ $\beta$ $p \times 1$ $\lambda > 0$ $l_1$ -Norm penalisation Koeffizient.

Das LASSO-Problem schreibt dann

\begin{aligned} β^{*} & = {argmin}_{β} L (β, λ) \\ L (β, λ) & = ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1} \end{aligned}

$\begin{align} \beta^* &= \text{argmin}_{\beta}\ L(\beta,\lambda) \\ L(\beta,\lambda) &= \Vert y-X\beta \Vert_2^2 + \lambda \Vert \beta \Vert_1 \end{align}$

Wenn man dies für alle Werte von löst, erhält man den sogenannten LASSO-Regularisierungspfad . $\lambda > 0$ $\beta^*(\lambda)$

Für einen festen Wert des Penalisationskoeffizienten (dh feste Anzahl aktiver Prädiktoren = fester Schritt des LARS-Algorithmus) kann gezeigt werden, dass erfüllt ist (schreiben Sie einfach die KKT-Stationaritätsbedingung wie hier aus $\lambda^*$ $\beta^*$ Antwort ausschreiben ).

λ^{*} = 2 sign (β_{a}^{*}) X_{a}^{T} (y - X β^{*}), \forall a \in A

$\lambda^* = 2 \ \text{sign}(\beta_a^*) X_a^T (y - X \beta^*),\ \ \ \forall a \in A$

mit $A$ die Menge der aktiven Prädiktoren darstellt.

Da positiv sein muss (es ist ein Bestrafungskoeffizient), ist es klar, dass das Vorzeichen von (Gewicht eines von Null verschiedenen aktiven Prädiktors) dasselbe sein sollte wie das von dh die Korrelation mit dem aktuellen Regressionsrest. $\lambda^*$ $\beta_a^*$ $X_a^T (y - X\beta^*) = X_{a}^T r$

Quantuple
quelle

1

@ Mr._White lieferte eine großartige intuitive Erklärung für den Hauptunterschied zwischen LARS und Lasso. Der einzige Punkt, den ich hinzufügen möchte, ist, dass Lasso einer Rückwärtsauswahl ähnelt und bei jedem Schritt einen Term ausschaltet, solange ein Term existiert, für den eine dieser (über "normalisierten" ) Korrelationen besteht. LARS behält alles drin - führt das Lasso im Grunde genommen in jeder möglichen Reihenfolge aus. Das bedeutet, dass im Lasso jede Iteration davon abhängt, welche Terme bereits entfernt wurden. $X \times X$

$X \times X$ $\zeta$ $\zeta_{min} < \zeta_{current}$ $A$ $x_1$ $x_2$ $x_2$ $x_3$ aber nicht mit anderen, etc.) die auswahlreihenfolge könnte ziemlich voreingenommen sein.

Egbutter
quelle

Lasso-Modifikation für LARS

Antworten: