Daher wurde mir die Frage gestellt, welche zentralen Kennzahlen L1 (dh Lasso) und L2 (dh Gratregression) geschätzt wurden. Die Antwort lautet L1 = Median und L2 = Mittelwert. Gibt es irgendeine Art von intuitivem Denken dafür? Oder muss es algebraisch ermittelt werden? Wenn ja, wie mache ich das?
24
Antworten:
Es gibt eine einfache geometrische Erklärung, warum die L1-Verlustfunktion den Median ergibt.
Denken Sie daran, dass wir in einer Dimension arbeiten. Stellen Sie sich also eine horizontal verlaufende Zahlenlinie vor. Zeichnen Sie jeden der Datenpunkte auf der Zahlenlinie. Legen Sie Ihren Finger irgendwo auf die Linie; Ihr Finger wird Ihre aktuelle Kandidatenschätzung sein.
Angenommen, Sie bewegen Ihren Finger ein wenig nach rechts, sagen wirδ Einheiten nach rechts. Was passiert mit dem Totalverlust? Wenn sich Ihr Finger zwischen zwei Datenpunkten befand und Sie ihn über einen Datenpunkt bewegen, haben Sie den Gesamtverlust für jeden Datenpunkt links von Ihrem Finger um erhöht δ und für jeden Datenpunkt auf verringert δ die rechte Hand. Wenn sich also rechts von Ihrem Finger mehr Datenpunkte als links befinden, wird durch Bewegen des Fingers nach rechts der Gesamtverlust verringert. Mit anderen Worten, wenn sich mehr als die Hälfte der Datenpunkte rechts von Ihrem Finger befindet, sollten Sie Ihren Finger nach rechts bewegen.
Dies führt dazu, dass Sie Ihren Finger zu einem Punkt bewegen, an dem sich die Hälfte der Datenpunkte auf diesem Punkt und die Hälfte auf der rechten Seite befindet. Dieser Punkt ist der Median.
Das ist L1 und der Median. Leider habe ich keine ähnliche Erklärung für L2 und den Mittelwert.
quelle
Diese Erklärung ist eine Zusammenfassung der Kommentare von Muratoa und Yves zur Antwort von DW. Obwohl es auf Kalkül basiert, fand ich es einfach und leicht zu verstehen.
Angenommen , wir haben und wollen eine neue Schätzung β basierend auf ihnen erhalten. Der kleinste Verlust wird erhalten, wenn wir β finden , das die Ableitung des Verlusts auf Null macht.y1,y2,...yk β β
L1-Verlust
∂L1
L2-Verlust
So to minimize L2 loss,
quelle
Adding to D.W.'s answer with an even more practical example (for L2 loss function as well):
Imagine a small village made of 4 houses close to each other (e.g. 10 meters). At 1 kilometer from those, you have another very isolated house. Now, you arrive in that town and want to build your own house somewhere. You want to live close to the other houses and be friend with everybody. Consider those two alternative scenarios:
You decide to be at the location where the average distance to any house is the smallest (i.e. minimizing a L1 loss function).
So the lowest average distance of 100 meters is reached by building your house in the village. More specifically, you will build your house in the middle of these 4 houses to gain a few more meters of average distance. And it turns out that this point is the "median point", that you would have obtained similarly using the median formula.
So yes, it is interesting to notice that, a bit counter-intuitively, when we minimize the sum of the distances, we don't end up being in the "middle" in the sense of the mean, but in the sense of the median. This is part of the reason why OLS, one of the most popular regression models, uses squared errors rather than absolute errors.
quelle
In addition to the already-posted answers (which have been very helpful to me!), there is a geometric explanation for the connection between the L2 norm and the mean.
To use the same notation as chefwen, the formula for L2 loss is:
We wish to find the value ofβ which minimizes L2 . Notice that this is equivalent to minimizing the following, since multiplying by k and taking the square root both preserve order:
If you consider the data vectory as a point in k -dimensional space, this formula calculates the Euclidean distance between the point y and the point β⃗ =(β,β,...,β) .
So the problem is to find the valueβ which minimizes the Euclidean distance between the points y and β⃗ . Since the possible values of β⃗ all lie on the line parallel to 1⃗ =(1,1,...,1) by definition, this is equivalent to finding the vector projection of y onto 1⃗ .
It's only really possible to visualize this whenk=2 , but here is an example where y=(2,6) . As shown, projecting onto 1⃗ yields (4,4) as we expect.
To show that this projection always yields the mean (including whenk > 2 ) können wir die Formel für die Projektion anwenden :
quelle