http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/
Wenn Sie oben in diesem Beitrag nachsehen, erwähnt der Verfasser, dass die L2-Norm eine eindeutige Lösung und die L1-Norm möglicherweise viele Lösungen enthält. Ich verstehe dies als Regularisierung, aber nicht als Verwendung der L1-Norm oder der L2-Norm in der Verlustfunktion.
Wenn Sie sich Diagramme der Funktionen von skalarem x (x ^ 2 und | x |) ansehen, können Sie leicht erkennen, dass beide eine eindeutige Lösung haben.
regression
lasso
regularization
user3180
quelle
quelle
Antworten:
Betrachten wir ein eindimensionales Problem für eine möglichst einfache Darstellung. (Höher dimensionale Fälle haben ähnliche Eigenschaften.)
Während beide und ( x - μ ) 2 haben jeweils ein eindeutiges Minimum, ∑ i | x i - μ | oft nicht. Betrachte x 1 = 1 und x 2 = 3 :|x−μ| (x−μ)2 ∑i|xi- μ| x1= 1 x2= 3
(Hinweis: Trotz der Beschriftung auf der x-Achse ist dies wirklich eine Funktion von . Ich hätte die Beschriftung ändern sollen, aber ich lasse sie einfach wie sie ist.)μ
In höheren Dimensionen können mit der -Norm Bereiche mit konstantem Minimum erhalten werden . Es ist ein Beispiel für den Fall von Linien passend hierL1 .
Da Sie (unter bestimmten Umständen) normalerweise keine Garantie dafür haben, dass Sie keine einflussreichen Beobachtungen machen, würde ich die L1-Regression nicht als robust bezeichnen.
R-Code für Grundstück:
quelle
plot
. Überrascht sein.Die Minimierung des L2-Verlusts entspricht der Berechnung des eindeutigen arithmetischen Mittels, während die Minimierung des L1-Verlusts der Berechnung des Medians entspricht, der mehrdeutig ist, wenn eine gerade Anzahl von Elementen in die Medianberechnung einbezogen wird (siehe Zentrale Tendenz: Lösungen für Variationsprobleme) ).
quelle