Warum hat der L2-Normverlust eine eindeutige Lösung und der L1-Normverlust möglicherweise mehrere Lösungen?

14

http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/

Wenn Sie oben in diesem Beitrag nachsehen, erwähnt der Verfasser, dass die L2-Norm eine eindeutige Lösung und die L1-Norm möglicherweise viele Lösungen enthält. Ich verstehe dies als Regularisierung, aber nicht als Verwendung der L1-Norm oder der L2-Norm in der Verlustfunktion.

Wenn Sie sich Diagramme der Funktionen von skalarem x (x ^ 2 und | x |) ansehen, können Sie leicht erkennen, dass beide eine eindeutige Lösung haben.

user3180
quelle
2
"fnx"? ... Bitte bearbeiten, um dies zu verdeutlichen. Meinst du "Funktionen"?
Glen_b

Antworten:

22

Betrachten wir ein eindimensionales Problem für eine möglichst einfache Darstellung. (Höher dimensionale Fälle haben ähnliche Eigenschaften.)

Während beide und ( x - μ ) 2 haben jeweils ein eindeutiges Minimum, i | x i - μ | oft nicht. Betrachte x 1 = 1 und x 2 = 3 :|xμ|(xμ)2i|xiμ|x1=1x2=3

Plot von sum_i | x_i - mu |

(Hinweis: Trotz der Beschriftung auf der x-Achse ist dies wirklich eine Funktion von . Ich hätte die Beschriftung ändern sollen, aber ich lasse sie einfach wie sie ist.)μ

In höheren Dimensionen können mit der -Norm Bereiche mit konstantem Minimum erhalten werden . Es ist ein Beispiel für den Fall von Linien passend hierL1 .

ich(xich-μ)2=n(x¯-μ)2+k(x)


L1

Da Sie (unter bestimmten Umständen) normalerweise keine Garantie dafür haben, dass Sie keine einflussreichen Beobachtungen machen, würde ich die L1-Regression nicht als robust bezeichnen.


R-Code für Grundstück:

 fi <- function(x,i=0) abs(x-i)
 f <- function(x) fi(x,1)+fi(x,3)
 plot(f,-1,5,ylim=c(0,6),col="blue",lwd=2)
 curve(fi(x,1),-1,5,lty=3,col="dimgrey",add=TRUE)
 curve(fi(x,3),-1,5,lty=3,col="dimgrey",add=TRUE)
Glen_b - Setzen Sie Monica wieder ein
quelle
Das ist toll. Mit welcher Software haben Sie die Grafik erstellt?
User3180
2
R. Dies erfolgt nur in Basisgrafiken. Ich habe den Code am Ende meiner Antwort hinzugefügt.
Glen_b
Woah, ich habe nie bemerkt, dass Sie eine Funktion liefern können plot. Überrascht sein.
JAD
3

Die Minimierung des L2-Verlusts entspricht der Berechnung des eindeutigen arithmetischen Mittels, während die Minimierung des L1-Verlusts der Berechnung des Medians entspricht, der mehrdeutig ist, wenn eine gerade Anzahl von Elementen in die Medianberechnung einbezogen wird (siehe Zentrale Tendenz: Lösungen für Variationsprobleme) ).

Hallo Auf Wiedersehen
quelle