Ridge & LASSO Normen

12

Dieser Beitrag folgt diesem: Warum wird die Kammschätzung besser als die OLS, indem der Diagonale eine Konstante hinzugefügt wird?

Hier ist meine Frage:

Soweit ich weiß, verwendet die eine 2 -Norm (euklidischer Abstand). Aber warum verwenden wir das Quadrat dieser Norm? (Eine direkte Anwendung von 2 würde mit der Quadratwurzel der Summe des Beta-Quadrats resultieren).22

Zum Vergleich machen wir dies nicht für den LASSO, der zur Regularisierung eine -Norm verwendet. Aber hier ist es die "echte" 1- Norm (nur die Summe des Quadrats der Beta-Absolutwerte und nicht das Quadrat dieser Summe).11

Kann mir jemand bei der Klärung helfen?

PLOTZ
quelle
2
Der Strafzeitraum bei der Gratregression ist die quadratische L2-Norm. Siehe diese Folien von Tibshirani als Beispiel (Folie 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf Siehe auch hier en.wikipedia.org/wiki/Tikhonov_regularization
boscovich
Kleiner Punkt der Klarstellung, dies sind Folien von Ryan Tibshirani, nicht von Rob.
Ellis Valentiner
ok, vielen dank für die klärung. Aber ich verstehe nicht, warum für L2 im Quadrat und nicht für L1 im Quadrat. Haben wir keine allgemeinen Formeln für irgendeine Art von Regularisierung?
PLOTZ
@ user12202013: Danke, dass du darauf hingewiesen hast. Das habe ich nicht bemerkt.
Boscovich

Antworten:

9

Ridge und Lasso sind zwei Arten der Regularisierung und eine Regression. Die Lasso-Regression legt eine Einschränkung für die Summe der absoluten Koeffizienten fest:

iβi2=||β||1

Die Ridge-Regression legt eine Einschränkung der Summe der quadratischen Differenzen fest:

iβi2=iβi22=||βi||22

Sie haben vorgeschlagen, noch eine andere Norm einzuführen, die euklidische Länge der Koeffizienten:

iβi2=||βi||2

Der Unterschied zwischen der Ridge-Regression und der euklidischen Länge ist die Quadratur. Dies ändert die Interpretation der Regularisierung. Während sowohl der Kamm als auch die euklidische Länge gegen Null regulieren, unterscheidet sich die Kammregression auch im Ausmaß der Regularisierung. Koeffizienten, die weiter von Null entfernt sind, ziehen stärker gegen Null. Dies macht es um Null stabiler, da sich die Regularisierung allmählich um Null ändert. Dies ist nicht der Fall für die euklidische Länge oder tatsächlich für die Lasso-Regression.

Pieter
quelle
7

Es gibt viele bestrafte Ansätze, die jetzt alle möglichen unterschiedlichen Straffunktionen haben (Ridge, Lasso, MCP, SCAD). Die Frage, warum eine bestimmte Form vorliegt, lautet grundsätzlich: "Welche Vor- und Nachteile bietet eine solche Strafe?".

Eigenschaften von Interesse könnten sein:

1) nahezu unvoreingenommene Schätzer (beachten Sie, dass alle bestraften Schätzer voreingenommen sind)

2) Sparsity (Note Ridge Regression führt nicht zu spärlichen Ergebnissen, dh es schrumpft die Koeffizienten nicht bis auf Null)

3) Kontinuität (um Instabilität bei der Modellvorhersage zu vermeiden)

Dies sind nur einige Eigenschaften, die für eine Straffunktion von Interesse sein könnten.

Es ist viel einfacher, die Arbeit mit einer Summe in Ableitungen und theoretischer Arbeit: zB und | | β | | 1 = | β i | . Stellen Sie sich vor, wir hätten ||β||22=|βi|2||β||1=|βi| oder(|βi|)2. Die Einnahme von Derivaten (die notwendig sind, um theoretische Ergebnisse wie Konsistenz, asymptotische Normalität usw. zu zeigen) wäre ein Schmerz mit solchen Strafen.(|βi|2)(|βi|)2

bdeonovic
quelle
OK danke. Aber warum für L2 quadrieren und nicht für L1 quadrieren? Haben wir keine allgemeinen Formeln für irgendeine Art von Regularisierung? Das verwirrt mich ...
PLOTZ
@PLOTZ Ich habe meiner Antwort etwas hinzugefügt.
Bdeonovic
Vielen Dank Benjamin! Sicher ist es jetzt klarer! Ich habe diesen theoretischen Zweck vor Ihrer Antwort nicht verstanden. Vielen Dank für Ihre Antwort.
PLOTZ
@Benjamin: Meinten Sie in Punkt 1 tatsächlich "( nicht alle bestraften Schätzer werden unvoreingenommen sein)"? Die Ridge-Regression - um nur einen zu nennen - ist voreingenommen.
Boscovich
whoops ja danke, dass du das verstanden hast! Ich denke in der Tat werden alle bestraften Schätzer voreingenommen sein.
Bdeonovic
5

Tatsächlich stammen sowohl das Quadrat des -Norms als auch des 1 -Norms aus derselben Regularisierungsklasse: β p p, wenn p > 0 ist .21βppp>0

Die Ridge-Regression verwendet dann und das Lasso p = 1, aber man kann andere Werte von p verwendenp=2p=1p .

Zum Beispiel haben Sie eine spärliche Lösung für alle Werte von , und je kleiner der Wert von p ist, desto spärlicher ist die Lösung.p1p

Bei Werten von Ihr Ziel nicht mehr glatt, sodass die Optimierung schwieriger wird. für p < 1 ist das Ziel nicht konvex und daher ist die Optimierung noch schwieriger ...p1p<1

Tonio Bonnef
quelle
2

Ich glaube, dass es hier eine noch einfachere Antwort gibt, obwohl "Warum" -Fragen immer schwer zu beantworten sind, wenn eine Technik entwickelt wird. Die quadratische -Norm wird verwendet, so dass der Regularisierungsterm leicht differenzierbar ist. Die Ridge-Regression minimiert:l2

yXβ22+λβ22

yXβ22+λβTβ

β

β^ridge=(XTX+λI)1XTy

woraus alle Arten von Schlussfolgerungen abgeleitet werden können.

Tim Atreides
quelle
1

Betrachten Sie einen weiteren wichtigen Unterschied zwischen der Verwendung des Quadrats von 2 Norm (dh Gratregression) und die unveränderte 2 Norm: die Ableitung der 2 Norm von x, ||x||2, beim x ist gegeben durch x||x||2 and therefore not differentiable at the zero vector. That is, although the 2 norm does not do individual variable selection like the lasso, it could theoretically yield β=0 as the solution to the maximum penalized likelihood. By squaring the 2 norm in the penalty, the ridge-type penalty is differentiable everywhere and can never yield such a solution.

This behavior is exactly (by my understanding) why the group lasso (Yuan and Lin) and the sparse group lasso (Simon, et al.), etc, use the 2 norm (on prespecified subsets of the coefficients) instead of the square of the 2 norm.

psboonstra
quelle