Lagrangeische Entspannung im Kontext der Gratregression

15

In "The Elements of Statistical Learning" (2. Aufl.), S. 63, geben die Autoren die folgenden zwei Formulierungen des Gratregressionsproblems an:

β^ridge=argminβ{i=1N(yiβ0j=1pxijβj)2+λj=1pβj2}

und

β^ridge=argminβi=1N(yiβ0j=1pxijβj)2, subject to j=1pβj2t.

Es wird behauptet, dass die beiden äquivalent sind und dass es eine Eins-zu-Eins-Entsprechung zwischen den Parametern und .tλt

Es scheint, dass die erste Formulierung eine Lagrange-Relaxation der zweiten ist. Ich hatte jedoch nie ein intuitives Verständnis dafür, wie oder warum Lagrange-Relaxationen wirken.

Gibt es einen einfachen Weg, um zu zeigen, dass die beiden Formulierungen tatsächlich gleichwertig sind? Wenn ich mich entscheiden muss, ziehe ich Intuition der Strenge vor.

Vielen Dank.

NPE
quelle
Wenn Sie lediglich eine intuitive Erklärung wünschen, lesen Sie 1.03.26 dieses Videos (bis zum Ende). Dort finden Sie eine intuitive Erklärung, wie Einschränkungen mit der Zielfunktion zusammenhängen.
User603

Antworten:

3

Die Entsprechung kann am einfachsten mit dem Envelope Theorem gezeigt werden .

λtλ

ttβλt

t

Ich nehme an, dies ist die Korrespondenz von Hastie et al. beziehen sich auf.

Tristan
quelle