KKT versus uneingeschränkte Formulierung der Lasso-Regression

Die bestrafte L1-Regression (auch bekannt als Lasso) wird in zwei Formulierungen dargestellt. Die beiden Zielfunktionen seien Dann sind die beiden unterschiedlichen Formulierungen

Q_{1} = \frac{1}{2} | | Y - X β | |_{2}^{2} Q_{2} = \frac{1}{2} | | Y - X β | |_{2}^{2} + λ | | β | |_{1} .

$Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1.$

vorbehaltlich

und,äquivalenten

{argmin}_{β} Q_{1}

$\text{argmin}_\beta \; Q_1$

| | β | |_{1} \leq t,

$||\beta||_1 \leq t,$

Unter Verwendung der Karush-Kuhn-Tucker (KKT) -Bedingungen ist leicht zu erkennen, wie die Stationaritätsbedingung für die erste Formulierung dem Gradienten der zweiten Formulierung entspricht und auf 0 gesetzt wird. Was ich nicht herausfinden oder herausfinden kann , istwie die komplementäre Schlaffheit Bedingung für die erste Formulierung,

, ist gewährleistet durch die Lösung für die zweite Formulierung erfüllt werden.

{argmin}_{β} Q_{2} .

$\text{argmin}_\beta \; Q_2.$

λ (| | β | |_{1} - t) = 0

$\lambda\left(||\beta||_1 - t\right) = 0$

regression lasso penalized goodepic
quelle

Antworten:

Die zwei Formulierungen sind äquivalent in dem Sinne, dass für jeden Wert von in der ersten Formulierung ein Wert von für die zweite Formulierung existiert, so dass die zwei Formulierungen den gleichen Minimierer . $t$ $\lambda$ $\beta$

Hier ist die Begründung:

Betrachten Sie die Lasso-Formulierung: Sei der Minimiererund sei. Meine Behauptung ist, dass, wenn Siein der ersten Formulierung, die Lösung der ersten Formulierung ebenfalls. Hier ist der Beweis:

f (β) = \frac{1}{2} | | Y - X β | |_{2}^{2} + λ | | β | |_{1}

$f(\beta)=\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1$

β^{*}

$\beta^*$

b = | | β^{*} | |_{1}

$b=||\beta^*||_1$

t = b

$t=b$

β^{*}

$\beta^*$

Betrachten Sie die erste Formulierung wenn möglich diese zweite Formulierung lassen hat eine Lösung , so dass(beachten Sie das streng weniger als Zeichen). Dann ist es leicht zu sehendass

min \frac{1}{2} | | Y - X β | |_{2}^{2} s.t. | | β | |_{1} \leq b

$\min \frac{1}{2}||Y - X\beta||_2^2 \text{ s.t.} ||\beta||_1\leq b$

\hat{β}

$\hat{\beta}$

| | \hat{β} | |_{1} < | | β^{*} | |_{1} = b

$||\hat{\beta}||_1<||\beta^*||_1=b$

der Tatsache widersprechen, dass

eine Lösung für das Lasso ist. Somit ist die Lösung für die erste Formulierung auch

f (\hat{β}) < f (β^{*})

$f(\hat{\beta})<f(\beta^*)$

β^{*}

$\beta^*$

β^{*}

$\beta^*$

Da , ist die komplementäre Schlaffheitsbedingung am Lösungspunkt erfüllt . $t=b$ $\beta^*$

Wenn Sie also eine Lasso-Formulierung mit , konstruieren Sie eine beschränkte Formulierung mit einem , das dem Wert der -Norm der Lasso-Lösung entspricht. Umgekehrt erhalten Sie bei einer eingeschränkten Formulierung mit ein so dass die Lösung des Lassos gleich der Lösung der eingeschränkten Formulierung ist. $\lambda$ $t$ $l_1$ $t$ $\lambda$

(Wenn Sie Subgradienten kennen, können Sie dieses indem Sie die Gleichung lösen , wobei $\lambda$ $X^T(y-X\beta^*)=\lambda z^*$ $z^* \in \partial ||\beta^*||_1)$

elexhobby
quelle

Ausgezeichnet. Sobald Sie die Lösung gefunden haben, fühlen Sie sich immer dumm, nicht selbst dorthin zu gelangen. Ich nehme an, Sie meinen, den Widerspruch zu finden, nehmen wir einen finden

, so dass

\hat{β}

$\hat{\beta}$

| | \hat{β} | |_{1} < | | β^{*} | |_{1} = b

$||\hat{\beta}||_1 < ||\beta^*||_1 = b$

Goodepic

Betrachten Sie die Antwort als richtig

bdeonovic

Sie warum erarbeiten

f (\hat{β}) < f (β^{*})

$f(\hat{\beta}) < f(\beta^*)$

goofd

Dies beweist, dass die Lösung der ersten Formulierung auch eine l1-Norm von b haben muss. Wie beweist es, dass die beiden Lösungen tatsächlich gleich sind?

broncoAbierto

Darüber hinaus hat das Lasso nicht immer eine eindeutige Lösung, sodass wir nicht auf den Minimierer verweisen können . arxiv.org/pdf/1206.0313.pdf . Wir konnten jedoch beziehen sich auf die Menge der Minimierer und zeigen , dass einige

zu diesem Satz gehören.

\hat{β} \neq β^{*}

$\hat{\beta} \neq \beta^*$

broncoAbierto

Ich denke, dass die Idee von elexhobby für diesen Beweis gut ist, aber ich denke nicht, dass es völlig richtig ist.

Zeigen , dass das Vorhandensein einer Lösung für die erste , so dass führt zu einem Widerspruch, können wir nur die Notwendigkeit , übernehmen von , nicht dass $\hat{\beta}$ $\|\hat{\beta}\| < \|\beta^*\|$ $\|\hat{\beta}\| = \|\beta^*\|$ $\hat{\beta} = \beta^*$ .

Ich schlage stattdessen vor, wie folgt vorzugehen:

Der Einfachheit halber bezeichnen wir die erste und die zweite Formulierung mit bzw. . Nehmen wir an, dass eine eindeutige Lösung mit . Lassen eine . Dann haben wir das (es kann nicht größer sein , weil der Zwang) und damit $P_1$ $P_2$ $P_2$ $\beta^*$ $\|\beta^*\|=b$ $P_1$ $\hat{\beta} \neq \beta^*$ $\|\hat{\beta}\| \leq \|\beta^*\|$ . Wenn dann ist nicht die Lösung für den , die unsere Annahmen widerspricht. Wenn dann , da wir die Lösung eindeutig sein angenommen. $f(\hat{\beta}) \leq f(\beta^*)$ $f(\hat{\beta}) < f(\beta^*)$ $\beta^*$ $P_2$ $f(\hat{\beta}) = f(\beta^*)$ $\hat{\beta} = \beta^*$

$\ell 1$ $P_1$

$S$ $P_2$ $\|\beta\|=b \mbox{ } \forall \beta \in S$ . Lassen $P_1$ eine Lösung haben, $\hat{\beta} \notin S$ . Then, we have that $\|\hat{\beta}\| \leq \|\beta\| \forall \beta \in S$ and therefore $f(\hat{\beta}) \leq f(\beta) \forall \beta \in S$ . If $f(\hat{\beta}) = f(\beta)$ for some $\beta \in S$ (and hence for all of them) then $\hat{\beta} \in S$ , which contradicts our assumptions. If $f(\hat{\beta}) < f(\beta)$ for some $\beta \in S$ then $S$ is not the set of solutions to $P_2$ . Therefore, every solution to $P_1$ is in $S$ , i.e. any solution to $P_1$ is also a solution to $P_2$ . It would remain to prove that the complementary holds too.

broncoAbierto
quelle