Ich habe Elemente des statistischen Lernens gelesen und möchte wissen, warum das Lasso eine variable Auswahl bietet und die Gratregression nicht.
Beide Methoden minimieren die verbleibende Quadratsumme und beschränken die möglichen Werte der Parameter . Für das Lasso ist die Bedingung , während sie für den Kamm für einige ist .
Ich habe das Bild Diamant gegen Ellipse im Buch gesehen und weiß, warum das Lasso die Ecken des eingeschränkten Bereichs treffen kann, was bedeutet, dass einer der Koeffizienten auf Null gesetzt ist. Meine Intuition ist jedoch eher schwach und ich bin nicht überzeugt. Es sollte leicht zu sehen sein, aber ich weiß nicht, warum das so ist.
Ich bin also auf der Suche nach einer mathematischen Begründung oder einer intuitiven Erklärung, warum die Konturen der Restsumme der Quadrate wahrscheinlich die Ecken der eingeschränkten Region treffen (wobei diese Situation unwahrscheinlich ist, wenn die Einschränkung ist ).
quelle
Antworten:
Betrachten wir ein sehr einfaches Modell: , mit einer L1-Strafe für und einer Least-Squares-Loss-Funktion für . Wir können den zu minimierenden Ausdruck wie folgt erweitern:y=βx+e β^ e^
Nehmen wir an, dass die Lösung der kleinsten Quadrate eine ist, was der Annahme entspricht, dass , und sehen wir, was passiert, wenn wir die L1-Strafe hinzufügen. Mit , , also ist die Strafe gleich . Die Ableitung der Zielfunktion wrt lautet:β^>0 yTx>0 β^>0 |β^|=β^ 2λβ β^
die offenbar Lösung hat .β^=(yTx−λ)/(xTx)
Offensichtlich können wir durch Erhöhen von auf Null setzen (bei ). Sobald jedoch , wird die Erhöhung von nicht negativ, da die Ableitung der Zielfunktion bei loser Schreibweise zu negativ wird:λ β^ λ=yTx β^=0 λ β^
wo der Flip im Vorzeichen von auf den absoluten Wert der Strafzeit zurückzuführen ist; wenn negativ wird, wird der Strafterm gleich und die WRT - Derivat unter in Ergebnisse . Dies führt zu der Lösung , die offensichtlich nicht mit übereinstimmt (vorausgesetzt, die Lösung der kleinsten Quadrate ist . was impliziert, dass undλ β −2λβ β −2λ β^=(yTx+λ)/(xTx) β^<0 >0 yTx>0 λ>0 ). Es gibt eine Zunahme der L1-Strafe UND eine Zunahme des quadratischen Fehlerausdrucks (wenn wir uns weiter von der Lösung der kleinsten Quadrate entfernen), wenn wir von auf , also tun wir das nicht, sondern nur bleibe bei .β^ 0 <0 β^=0
Es sollte intuitiv klar sein, dass dieselbe Logik mit entsprechenden Vorzeichenänderungen für eine Lösung der kleinsten Quadrate mit .β^<0
Mit der Strafe die kleinsten Fehlerquadrate wird die Ableitung jedoch zu:λβ^2
die offenbar Lösung hat . Offensichtlich wird kein Anstieg von dies ganz auf Null treiben. Die L2-Strafe kann daher nicht als ein variables Auswahlwerkzeug ohne ein mildes Ad-Hockery wie "Setzen Sie die Parameterschätzung auf Null, wenn sie kleiner als " verwendet werden.β^=yTx/(xTx+λ) λ ϵ
Offensichtlich können sich die Dinge ändern, wenn Sie zu multivariaten Modellen wechseln. Wenn Sie beispielsweise eine Parameterschätzung verschieben, wird möglicherweise eine andere dazu gezwungen, das Vorzeichen zu ändern. Das allgemeine Prinzip ist jedoch dasselbe: Die L2-Straffunktion kann Sie nicht vollständig auf Null bringen. weil es beim Schreiben sehr heuristisch ist und sich tatsächlich zum "Nenner" des Ausdrucks für addiert, aber die L1-Straffunktion kann es, weil es sich tatsächlich zum "Zähler" addiert.β^
quelle
Angenommen, wir haben einen Datensatz mit y = 1 und x = [1/10 1/10] (ein Datenpunkt, zwei Merkmale). Eine Lösung besteht darin, eines der Merkmale auszuwählen, eine andere darin, beide Merkmale zu gewichten. Dh wir können entweder w = [5 5] oder w = [10 0] wählen.
Beachten Sie, dass für die L1-Norm beide die gleiche Strafe haben, für die L2-Norm jedoch eine geringere Strafe, wenn das Gewicht stärker verteilt ist.
quelle
Ich denke, es gibt bereits hervorragende Antworten, aber nur um ein wenig Intuition in Bezug auf die geometrische Interpretation hinzuzufügen:
"Das Lasso führt eine Schrumpfung durch, so dass es" Ecken "in der Abhängigkeit gibt, die in zwei Dimensionen einem Diamanten entsprechen. Wenn die Summe der Quadrate auf eine dieser Ecken trifft, wird der der Achse entsprechende Koeffizient geschrumpft bis Null.L1
Wenn zunimmt, hat der mehrdimensionale Diamant eine zunehmende Anzahl von Ecken, und so ist es sehr wahrscheinlich, dass einige Koeffizienten gleich Null gesetzt werden. Daher führt das Lasso eine Schrumpfung und (effektiv) eine Teilmengenauswahl durch.p
Im Gegensatz zur Auswahl einer Teilmenge führt Ridge eine weiche Schwellwertbildung durch: Wenn der Glättungsparameter variiert wird, bewegt sich der Abtastpfad der Schätzungen kontinuierlich auf Null.
Quelle: https://onlinecourses.science.psu.edu/stat857/book/export/html/137
Der Effekt kann gut sichtbar gemacht werden, wenn die farbigen Linien die Pfade der Regressionskoeffizienten sind, die gegen Null schrumpfen.
"Die Ridge-Regression verkleinert alle Regressionskoeffizienten in Richtung Null. Das Lasso ergibt in der Regel einen Satz von Null-Regressionskoeffizienten und führt zu einer spärlichen Lösung."
Quelle: https://onlinecourses.science.psu.edu/stat857/node/158
quelle