Lasso-Modifikation für LARS

12

Ich versuche zu verstehen, wie der Lars-Algorithmus modifiziert werden kann, um Lasso zu erzeugen. Obwohl ich LARS verstehe, kann ich die Lasso-Modifikation aus dem Artikel von Tibshirani et al. Nicht sehen. Insbesondere verstehe ich nicht, warum die Vorzeichenbedingung darin, dass das Vorzeichen der Nicht-Null-Koordinate mit dem Vorzeichen der aktuellen Korrelation übereinstimmen muss. Kann mir bitte jemand dabei helfen. Ich schätze, ich suche einen mathematischen Beweis unter Verwendung der KKT-Bedingung für das ursprüngliche L-1-Normproblem, dh das Lasso. Vielen Dank!

Neuling
quelle
Beziehen Sie sich auf Efron et al. Stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf ? Das beweist Lemma 8 in Abschnitt 5. Oder verstehe ich Ihre Frage falsch?
Peter Ellis
1
Ich bin mir auch nicht sicher, aber das Lasso ist eine Vereinfachung des Lars: Für Lasso suchen Sie nur nach positiven Korrelationen zwischen dem aktuellen Residuum und den verbleibenden Basisfunktionen, da nur positive Korrelationen zu positiven führen (~ nicht negative) Koeffizienten.
Mr. White

Antworten:

2

Es sei (Größe n × p ) eine Menge standardisierter Eingaben, y (Größe n × 1 ) zentrierte Antworten, β (Größe p × 1 ) Regressionsgewichte und λ > 0 a l 1Xn×pyn×1βp×1λ>0l1 -Norm penalisation Koeffizient.

Das LASSO-Problem schreibt dann

β=argminβ L(β,λ)L(β,λ)=yXβ22+λβ1

Wenn man dies für alle Werte von löst, erhält man den sogenannten LASSO-Regularisierungspfad β ( λ ) .λ>0β(λ)

Für einen festen Wert des Penalisationskoeffizienten (dh feste Anzahl aktiver Prädiktoren = fester Schritt des LARS-Algorithmus) kann gezeigt werden, dass β erfüllt ist (schreiben Sie einfach die KKT-Stationaritätsbedingung wie hier ausλβ Antwort ausschreiben ).

λ=2 sign(βa)XaT(yXβ),   aA

mit A die Menge der aktiven Prädiktoren darstellt.

Da positiv sein muss (es ist ein Bestrafungskoeffizient), ist es klar, dass das Vorzeichen von β a (Gewicht eines von Null verschiedenen aktiven Prädiktors) dasselbe sein sollte wie das von X T a ( y - X β) ) = X T a r dh die Korrelation mit dem aktuellen Regressionsrest.λβaXaT(yXβ)=XaTr

Quantuple
quelle
1

@ Mr._White lieferte eine großartige intuitive Erklärung für den Hauptunterschied zwischen LARS und Lasso. Der einzige Punkt, den ich hinzufügen möchte, ist, dass Lasso einer Rückwärtsauswahl ähnelt und bei jedem Schritt einen Term ausschaltet, solange ein Term existiert, für den eine dieser (über "normalisierten" ) Korrelationen besteht. LARS behält alles drin - führt das Lasso im Grunde genommen in jeder möglichen Reihenfolge aus. Das bedeutet, dass im Lasso jede Iteration davon abhängt, welche Terme bereits entfernt wurden. X×X

X×Xζζmin<ζcurrentAx1x2x2x3 aber nicht mit anderen, etc.) die auswahlreihenfolge könnte ziemlich voreingenommen sein.

Egbutter
quelle