Lagrangeische Entspannung im Kontext der Gratregression

In "The Elements of Statistical Learning" (2. Aufl.), S. 63, geben die Autoren die folgenden zwei Formulierungen des Gratregressionsproblems an:

{\hat{β}}^{r i d g e} = \underset{β}{argmin} {\sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2} + λ \sum_{j = 1}^{p} β_{j}^{2}}

$\hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \left\{ \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \right\}$

und

{\hat{β}}^{r i d g e} = \underset{β}{argmin} \sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2}, subject to \sum_{j = 1}^{p} β_{j}^{2} \leq t .

$\hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 \text{, subject to } \sum_{j=1}^p \beta_j^2 \leq t.$

Es wird behauptet, dass die beiden äquivalent sind und dass es eine Eins-zu-Eins-Entsprechung zwischen den Parametern und . $\lambda$ $t$

Es scheint, dass die erste Formulierung eine Lagrange-Relaxation der zweiten ist. Ich hatte jedoch nie ein intuitives Verständnis dafür, wie oder warum Lagrange-Relaxationen wirken.

Gibt es einen einfachen Weg, um zu zeigen, dass die beiden Formulierungen tatsächlich gleichwertig sind? Wenn ich mich entscheiden muss, ziehe ich Intuition der Strenge vor.

Vielen Dank.

ridge-regression NPE
quelle

Wenn Sie lediglich eine intuitive Erklärung wünschen, lesen Sie 1.03.26 dieses Videos (bis zum Ende). Dort finden Sie eine intuitive Erklärung, wie Einschränkungen mit der Zielfunktion zusammenhängen.

User603

Lagrangeische Entspannung im Kontext der Gratregression

Antworten: