Für das Lasso-Problem so dass . Ich sehe oft das Ergebnis der schwachen Schwelle \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS}} |) - \ gamma) ^ + für den orthonormalen X- Fall. Es wird behauptet, dass die Lösung "leicht gezeigt" werden kann, aber ich habe noch nie eine funktionierende Lösung gesehen. Hat jemand einen gesehen oder hat vielleicht die Ableitung gemacht?
52
Antworten:
Dies kann auf verschiedene Arten angegriffen werden, einschließlich relativ wirtschaftlicher Ansätze über die Karush-Kuhn-Tucker-Bedingungen .
Im Folgenden finden Sie ein recht elementares alternatives Argument.
Die Lösung der kleinsten Quadrate für ein orthogonales Design
Angenommen, besteht aus orthogonalen Spalten. Dann ist die Lösung der kleinsten β LS = ( X T X ) - 1 X T y = X T yX
Einige äquivalente Probleme
Über die Lagrange-Form ist es einfach zu erkennen, dass ein zu dem in der Frage betrachteten äquivalentes Problem
Wenn wir den ersten Term erweitern, erhalten wir und da keine enthält von den interessierenden Variablen können wir es verwerfen und ein weiteres gleichwertiges Problem betrachten: yTyminβ(-yTXβ+112yTy−yTXβ+12βTβ yTy
Mit kann das vorherige Problem als umgeschrieben werden. minβp Σ i=1 - β LS i & beta;i+1β^LS=XTy
Unsere Zielfunktion ist nun eine Summe von Zielen, die jeweils einer separaten Variablen , sodass sie jeweils einzeln gelöst werden können.βi
Das Ganze ist gleich der Summe seiner Teile
Repariere ein bestimmtes . Dann wollen wir minimieren L i = - β LS i & beta; i + 1i
Wenn , müssen wir da wir sonst das Vorzeichen umdrehen und einen niedrigeren Wert für die Zielfunktion erhalten könnten. Wenn , müssen wir wählen .βi≥0 β LS i <0βi≤0β^LSi>0 βi≥0 β^LSi<0 βi≤0
Fall 1 : . Da , ist und dies in Bezug auf differenzieren und gleich Null zu setzen erhalten wir und dies ist nur möglich, wenn die rechte Seite nicht ist. In diesem Fall lautet die tatsächliche Lösung also βi≥0Li= - β LS i & beta;i+1β^LSi>0 βi≥0
Fall 2 : . Dies impliziert, dass wir und daher Differenziert man in Bezug auf und setzt es auf Null, so erhält man . Aber um dies zu gewährleisten, brauchen wir , was durchβ^LSi≤0 βi≤0
In beiden Fällen erhalten wir die gewünschte Form und sind fertig.
Schlussbemerkungen
Beachten Sie, dass mit zunehmendem jedes dernimmt notwendigerweise ab, daher auch . Wenn , werden die OLS-Lösungen wiederhergestellt, und fürerhalten wir für alle .γ |β^lassoi| ∥β^lasso∥1 γ=0 γ>maxi|β^LSi| β^lassoi=0 i
quelle
Angenommen, die Kovariaten , die Spalten von , sind ebenfalls standardisiert, so dass . Dies dient später nur der Vereinfachung: Ohne wird die Notation nur schwerer, da nur diagonal ist. Weiter wird angenommen, dass . Dies ist eine notwendige Voraussetzung, damit das Ergebnis erhalten bleibt. Definieren Sie den Schätzer der kleinsten Quadrate . Dann die (Lagrange-Form des) Lasso-Schätzersxj X∈Rn×p XTX=I XTX n≥p β^OLS=argminβ∥y−Xβ∥22 proxffS& agr;& agr;
Dies ist eine Ableitung, die die detaillierte Ableitung des von Cardinal ausgearbeiteten proximalen Operators überspringt, aber hoffentlich die Hauptschritte klärt, die eine geschlossene Form ermöglichen.
quelle