Ich versuche zu verstehen, wie der Lars-Algorithmus modifiziert werden kann, um Lasso zu erzeugen. Obwohl ich LARS verstehe, kann ich die Lasso-Modifikation aus dem Artikel von Tibshirani et al. Nicht sehen. Insbesondere verstehe ich nicht, warum die Vorzeichenbedingung darin, dass das Vorzeichen der Nicht-Null-Koordinate mit dem Vorzeichen der aktuellen Korrelation übereinstimmen muss. Kann mir bitte jemand dabei helfen. Ich schätze, ich suche einen mathematischen Beweis unter Verwendung der KKT-Bedingung für das ursprüngliche L-1-Normproblem, dh das Lasso. Vielen Dank!
12
Antworten:
Es sei (Größe n × p ) eine Menge standardisierter Eingaben, y (Größe n × 1 ) zentrierte Antworten, β (Größe p × 1 ) Regressionsgewichte und λ > 0 a l 1X n×p y n×1 β p×1 λ>0 l1 -Norm penalisation Koeffizient.
Das LASSO-Problem schreibt dann
Wenn man dies für alle Werte von löst, erhält man den sogenannten LASSO-Regularisierungspfad β ∗ ( λ ) .λ>0 β∗(λ)
Für einen festen Wert des Penalisationskoeffizienten (dh feste Anzahl aktiver Prädiktoren = fester Schritt des LARS-Algorithmus) kann gezeigt werden, dass β ∗ erfüllt ist (schreiben Sie einfach die KKT-Stationaritätsbedingung wie hier ausλ∗ β∗ Antwort ausschreiben ).
mitA die Menge der aktiven Prädiktoren darstellt.
Da positiv sein muss (es ist ein Bestrafungskoeffizient), ist es klar, dass das Vorzeichen von β ∗ a (Gewicht eines von Null verschiedenen aktiven Prädiktors) dasselbe sein sollte wie das von X T a ( y - X β) ∗ ) = X T a r dh die Korrelation mit dem aktuellen Regressionsrest.λ∗ β∗a XTa(y−Xβ∗)=XTar
quelle
@ Mr._White lieferte eine großartige intuitive Erklärung für den Hauptunterschied zwischen LARS und Lasso. Der einzige Punkt, den ich hinzufügen möchte, ist, dass Lasso einer Rückwärtsauswahl ähnelt und bei jedem Schritt einen Term ausschaltet, solange ein Term existiert, für den eine dieser (über "normalisierten" ) Korrelationen besteht. LARS behält alles drin - führt das Lasso im Grunde genommen in jeder möglichen Reihenfolge aus. Das bedeutet, dass im Lasso jede Iteration davon abhängt, welche Terme bereits entfernt wurden.X×X
quelle