Wie funktioniert die Ridge- oder Lasso-Regression wirklich?

7

Sehr grundlegende Frage hier, aber ich möchte verstehen (nicht mathematisch), wie die Tatsache, eine "Strafe" (Summe der quadratischen Koeffizienten mal Skalar) zur verbleibenden Quadratsumme hinzuzufügen, große Koeffizienten reduzieren kann? Vielen Dank !

TmSmth
quelle
3
Eine grafische / visuelle Intuition finden Sie unter: stats.stackexchange.com/questions/350046/… , stats.stackexchange.com/questions/351631/…
Xavier Bourret Sicotte

Antworten:

5

Weil Ihre "Strafe" -Darstellung des Minimierungsproblems nur die weitreichende Form eines Problems der Einschränkungsoptimierung ist:

Nehmen Sie zentrierte Variablen an. In beiden Fällen, Lasso und Ridge, ist Ihre uneingeschränkte Zielfunktion dann die übliche Summe der quadratischen Residuen. dh gegebene Regressoren, die Sie minimieren: über alles .p

R.S.S.(β)=ich=1n(yich- -(xich,1β1++xich,pβp))2.
β=(β1,,βp)

Im Fall einer Gratregression minimieren Sie so, dass für einen Wert von . Für kleine Werte von es unmöglich, dieselbe Lösung wie im Standard-Szenario der kleinsten Quadrate abzuleiten. In diesem Fall minimieren Sie nur Denken Sie an dann an Die einzig mögliche Lösung kann .R.S.S.(β)

ich=1pβp2trichdGe,
trichdGe0trichdGeR.S.S.(β)trichdGe=0β1βp=0

Andererseits minimieren Sie im Fall des Lassos unter der Bedingung für einen Wert von .R.S.S.(β)

ich=1p|βp|tleinssÖ,
tleinssÖ0

Beide eingeschränkten Optimierungsprobleme können in Bezug auf ein nicht eingeschränktes Optimierungsproblem äquivalent dargestellt werden, dh für das Lasso: Sie können äquivalent minimieren

ich=1n(yich- -(xich,1β1++xich,pβp))2+λleinssÖich=1p|βp|.
BloXX
quelle
Vielen Dank, ich muss tief in den Teil "beschränkt auf nicht eingeschränkt", aber ich kam auf die Idee
TmSmth