Gemäß den Referenzen Buch 1 , Buch 2 und Papier .
Es wurde erwähnt, dass es eine Äquivalenz zwischen der regulierten Regression (Ridge, LASSO und Elastic Net) und ihren Einschränkungsformeln gibt.
Ich habe mir auch Cross Validated 1 und Cross Validated 2 angesehen , aber ich kann keine klare Antwort sehen, die diese Äquivalenz oder Logik zeigt.
Meine Frage ist
Wie kann man diese Äquivalenz mit Karush-Kuhn-Tucker (KKT) zeigen?
Die folgenden Formeln gelten für die Ridge-Regression.
HINWEIS
Diese Frage ist keine Hausaufgabe. Es dient nur dazu, mein Verständnis für dieses Thema zu verbessern.
AKTUALISIEREN
Ich habe noch keine Idee.
Antworten:
Die technischere Antwort ist, dass das eingeschränkte Optimierungsproblem in Form von Lagrange-Multiplikatoren geschrieben werden kann. Insbesondere ist der Lagrange , der mit dem eingeschränkten Optimierungsproblem verbunden ist, gegeben durchL (β) = a r g m i nβ⎧⎩⎨∑i = 1N.( yich−∑j=1pxijβj)2⎫⎭⎬+μ{(1−α)∑j=1p|βj|+α∑j=1pβ2j}
wobeiμ ist ein Multiplikator, der ausgewählt wurde, um die Einschränkungen des Problems zu erfüllen. Die Bedingungen erster Ordnung (die ausreichen, da Sie mit guten richtigen konvexen Funktionen arbeiten) für dieses Optimierungsproblem können daher erhalten werden, indem der Lagrange in Bezug auf β differenziert und die Ableitungen gleich 0 gesetzt werden (seit dem LASSO etwas nuancierter) Teil hat undifferenzierbare Punkte, aber es gibt Methoden aus der konvexen Analyse um die Ableitung zu verallgemeinern, damit die Bedingung erster Ordnung noch funktioniert. Es ist klar, dass diese Bedingungen erster Ordnung mit den Bedingungen erster Ordnung des von Ihnen aufgeschriebenen uneingeschränkten Problems identisch sind.
Ich denke jedoch, es ist nützlich zu sehen, warum es bei diesen Optimierungsproblemen im Allgemeinen oft möglich ist, über das Problem entweder durch die Linse eines eingeschränkten Optimierungsproblems oder durch die Linse eines nicht eingeschränkten Problems nachzudenken. Nehmen wir konkreter an, wir haben ein uneingeschränktes Optimierungsproblem der folgenden Form:maxxf(x)+λg(x)
Wir können immer versuchen, diese Optimierung direkt zu lösen, aber manchmal kann es sinnvoll sein, dieses Problem in Unterkomponenten zu unterteilen . Insbesondere ist es nicht schwer zu erkennen, dass
maxxf(x)+λg(x)=maxt(maxxf(x) s.t g(x)=t)+λt
Für einen festen Wert vonλ (und unter der Annahme, dass die zu optimierenden Funktionen tatsächlich ihre Optima erreichen) können wir also assoziieren es ist ein Wertt∗ das löst das äußere Optimierungsproblem. Dies gibt uns eine Art Zuordnung von uneingeschränkten Optimierungsproblemen zu eingeschränkten Problemen. In Ihrer speziellen Einstellung sollte diese Zuordnung tatsächlich eins zu eins sein, da sich für die elastische Netzregression alles gut verhält. Daher ist es hilfreich, zwischen diesen beiden Kontexten wechseln zu können, je nachdem, welcher für eine bestimmte Anwendung nützlicher ist. Im Allgemeinen verhält sich diese Beziehung zwischen eingeschränkten und nicht eingeschränkten Problemen möglicherweise weniger gut, aber es kann dennoch nützlich sein, darüber nachzudenken, inwieweit Sie zwischen dem eingeschränkten und dem nicht eingeschränkten Problem wechseln können.
Bearbeiten: Wie gewünscht, werde ich eine konkretere Analyse für die Gratregression aufnehmen, da sie die Hauptideen erfasst und gleichzeitig vermeidet, sich mit den technischen Details zu befassen, die mit der Nichtdifferenzierbarkeit der LASSO-Strafe verbunden sind. Denken Sie daran, wir lösen das Optimierungsproblem (in Matrixnotation):
SeiβOLS die OLS-Lösung (dh wenn es keine Einschränkung gibt). Dann werde ich mich auf den Fall konzentrieren, in dem M<∣∣∣∣βOLS∣∣∣∣ (sofern dies vorhanden ist), da die Einschränkung ansonsten uninteressant ist, da sie nicht bindet. Der Lagrange für dieses Problem kann geschrieben werden
L(β)=argminβ{∑i=1Nyi−xTiβ}−μ⋅||β||2≤M
Wennwirdanndifferenzieren, erhalten wir Bedingungen erster Ordnung:
0=−2(∑i=1Nyixi+(∑i=1NxixTi+μI)β)
was nur ein System von ist lineare Gleichungen und können folglich gelöst
β^=(∑i=1NxixTi+μI)−1(∑i=1Nyixi) μ
quelle
There is a great analysis by stats_model in his answer.
I tried answering similar question at The Proof of Equivalent Formulas of Ridge Regression.
I will take more Hand On approach for this case.t and λ in the 2 models.
Let's try to see the mapping between
As I wrote and can be seen from stats_model in his analysis the mapping depends on the data. Hence we'll chose a specific realization of the problem. Yet the code and sketching the solution will add intuition to what's going on.
We'll compare the following 2 models:
Let's assume thatx^ to be the solution of the regularized model and x~ to be the solution of the constrained model.
We're looking at the mapping fromt to λ such that x^=x~ .λ that matches the t (The actual code is presented in Least Squares with Euclidean ( L2 ) Norm Constraint).
Looking on my solution to Solver for Norm Constraint Least Squares one could see that solving the Constrained Model involves solving the Regularized Model and finding the
So we'll run the same solver and for eacht we'll display the optimal λ .
The solver basically solves:
So here is our Matrix:
And here is our vector:
This is the mapping:
As can be seen above, for high enough value oft the parameter λ=0 as expected.
Zooming in to the [0, 10] range:
The full code is available on my StackExchange Cross Validated Q401212 GitHub Repository.
quelle