Anwenden von Dualitäts- und KKT-Bedingungen auf das LASSO-Problem

7

Ich habe einige Schwierigkeiten zu verstehen, wie Dualität zu der häufigen Form des LASSO-Problems und der Karush-Kuhn-Tucker-Bedingung führt, die als komplementäre Schlaffheit bezeichnet wird. Ich habe zwei Fragen:

  1. Wir wissen das angesichts eines Optimierungsproblems
    minxf(x)s.t.hi(x)0,i=1,,m

Das Lösen dieses Problems entspricht dem Lösen des doppelten Problems

maxλg(λ)s.t.λ0
mit g(λ)=minλ{f(x)+i=1mλihi(x)}

Im LASSO-Problem ist das Primal

||yXβ||22s.t.||β||1t

Wenn mein Verständnis richtig ist, sollten wir für das doppelte Problem

g(λ)=minβ||yXβ||22+λ(||β||1t)

Das LASSO-Problem wird jedoch immer als

minβ||yXβ||22+λ||β||1

Was vermisse ich? Bezieht es sich auf die Ableitung einer Konstanten, die null ist?

  1. Die zweite Frage lautet: Ich habe viele Autoren gesehen, die die Lösung des LASSO-Problems vorgestellt haben, indem sie nur die Stationaritäts- KKT-Bedingung
    XT(yXβ)=λs

Ich verstehe, dass, da das Problem konvex ist, die ursprünglichen und doppelten Durchführbarkeitsbedingungen erfüllt sind, ich verstehe jedoch nicht, warum wir nicht nach komplementären Schlaffheitsbedingungen suchen .

Roberto
quelle

Antworten:

6

1) Sie gehen in die falsche Richtung, indem Sie die Dualität direkt aufrufen. Erhalten aus

arg minβ:β1tyXβ22

zu

arg minβyXβ22+λβ1

Sie müssen nur Lagrange-Multiplikatoren aufrufen. (Siehe z. B. Abschnitt 5.1 von [1])

LMs werden beim Unterrichten häufig im Kontext der Dualität diskutiert. In der Praxis können Sie jedoch direkt von einem zum anderen wechseln, ohne das duale Problem zu berücksichtigen.

Wenn Sie sich für das doppelte Problem des Lassos interessieren, wird es auf den Folien 12 und 13 von [2] ausgearbeitet.

2) Was Sie wahrscheinlich gesehen haben, ist die KKT-Stationaritätsbedingung für das Lasso:

arg min12yXβ22+λβ1XT(yXβ^)+λs=0 for some sβ^1

Dabei wird als Subdifferenz der Norm bezeichnet. (Dies ist im Wesentlichen nur die Standardbedingung "Ableitung gleich Null bei Minimum" aus dem Kalkül, jedoch angepasst an die Nichtdifferenzierbarkeit.)β11

Wir kennen die Subdifferenz von if Diese Gleichung liefert also eine exakte Lösung in geschlossener Form für das Lasso, wenn wir die Unterstützung und das Vorzeichen der Lösung kennen . Nämlich,|βi|=sign(βi)βi0

β^S^=(XS^TXS^)1(XS^Tyλsign(β^S^))

(Nebenbei: Diese Lösung macht den "Schrumpfeffekt" des Lassos (im Vergleich zu OLS) sehr deutlich.)

Natürlich besteht der schwierige Teil beim Lösen des Lassos darin, die Unterstützung und die Anzeichen der Lösung zu finden, daher ist dies in der Praxis nicht besonders hilfreich.

Es ist jedoch ein sehr nützliches theoretisches Konstrukt und kann verwendet werden, um viele schöne Eigenschaften des Lassos zu beweisen; Am wichtigsten ist jedoch, dass wir mithilfe der "Primal-Dual-Zeuge" -Technik Bedingungen festlegen können, unter denen das Lasso den "wahren" Satz von Variablen wiederherstellt. Siehe Abschnitt 11.4 von [3].

[1] S. Boyd und L. Vandenberghe. Konvexe Optimierung. Verfügbar unter https://web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf

[2] http://www.stat.cmu.edu/~ryantibs/convexopt-F15/lectures/13-dual-corres.pdf

[3] T. Hastie, R. Tibshirani, M. Wainwright. Statistisches Lernen mit Sparsamkeit: Das Lasso und Verallgemeinerungen. Verfügbar unter https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS_corrected_1.4.16.pdf

mweylandt
quelle