Geometrische Interpretation der bestraften linearen Regression

26

Ich weiß, dass lineare Regression als "die Linie gedacht werden kann, die allen Punkten vertikal am nächsten ist" :

Bildbeschreibung hier eingeben

Es gibt aber auch eine andere Möglichkeit, den Spaltenraum als "Projektion auf den Raum, der von den Spalten der Koeffizientenmatrix aufgespannt wird" zu visualisieren :

Bildbeschreibung hier eingeben

Meine Frage ist: Was passiert in diesen beiden Interpretationen, wenn wir die benachteiligte lineare Regression wie die Kammregression und LASSO verwenden ? Was passiert mit der Zeile in der ersten Interpretation? Und was passiert mit der Projektion in der zweiten Interpretation?

UPDATE: @JohnSmith hat in den Kommentaren darauf hingewiesen, dass die Strafe im Raum der Koeffizienten auftritt. Gibt es auch in diesem Raum eine Interpretation?

Lucas Reis
quelle
1
Ich bin mir nicht sicher, ob eine solche Interpretation möglich ist. Einfach, weil das, was Sie bereitgestellt haben, Bilder im ursprünglichen Bereich der Funktionen und Antworten sind. Und die bestrafte Regression beinhaltet den Raum der Koeffizienten, der sehr unterschiedlich ist.
Dmitry Laptev
msgstr "die allen Punkten vertikal am nächsten liegende Linie"? Normalerweise nimmt man die Summe der Quadrate - siehe das schöne Bild auf Wikipedia Coefficient_of_determination . Die Summe der vertikalen Abstände ist die L1-Norm, die weniger anfällig für Ausreißer ist, aber viel seltener.
Denis

Antworten:

20

Entschuldigen Sie meine Malfähigkeiten, ich werde versuchen, Ihnen die folgende Intuition zu geben.

f(β)ββ1β2

Es gibt ein Minimum dieser Funktion in der Mitte der roten Kreise. Und dieses Minimum gibt uns die nicht bestrafte Lösung.

g(β)g(β)=λ(|β1|+|β2|)g(β)=λ(β12+β22)λλg(x)

f(β)+g(β)

LASSO- und Ridge-Regression

Je größer die Strafe, desto "enger" die blauen Konturen, und dann treffen sich die Diagramme in einem Punkt, der näher bei Null liegt. Umgekehrt gilt: Je kleiner die Strafe, desto größer werden die Konturen, und der Schnittpunkt von blauen und roten Linien kommt näher an die Mitte des roten Kreises heran (nicht bestrafte Lösung).

β1=0β2=0

0

Hoffe, das erklärt ein wenig die Intuition darüber, wie eine bestrafte Regression im Bereich der Parameter funktioniert.

Dmitry Laptev
quelle
Ich denke, mit einem klassischen Bild zu beginnen, wie Sie es getan haben, ist ein guter Anfang. Um dies wirklich zu verstehen, halte ich es für hilfreich, zu beschreiben, wie sich die Konturen auf das Problem beziehen. Insbesondere wissen wir in beiden Fällen, dass je kleiner wir unsere Strafe machen, desto näher wir der OLS-Lösung kommen und je größer sie wird, desto näher wir einem reinen Intercept-Modell kommen. Eine zu stellende Frage lautet: Wie manifestiert sich dies in Ihrer Figur?
Kardinal
Übrigens, deine Malfähigkeiten scheinen in Ordnung zu sein.
Kardinal
Vielen Dank für Ihren Kommentar! Hier ist alles intuitiv einfach: Je größer die Strafe, desto "schmaler" die blauen Konturen (und dann nähert sich der Punkt, an dem zwei Diagramme aufeinander treffen, der Null an). Umgekehrt gilt: Je kleiner die Strafe, desto näher an der Mitte des roten Kreises treffen sich die Handlungen (OLS).
Dmitry Laptev
2
g(x)λ
1
Danke für die übersichtliche Darstellung. Ich habe an anderer Stelle gelesen, dass die Mindestsumme der Ziele dort auftritt, wo sie sich berühren. Ich verstehe, dass, wenn f (& bgr;) '= -g (& bgr;)', dies bedeuten würde, dass die Ableitung der Summe Null ist, was eine Voraussetzung für ein Extremum ist. Ist das hier gemeint mit "wenn zwei Konturdiagramme aufeinander treffen"?
odedbd
3

Die Intuition, die ich habe, ist die folgende: Im Fall der kleinsten Quadrate ist die Hutmatrix eine orthogonale Projektion, die somit idempotent ist. Im bestraften Fall ist die Hutmatrix nicht mehr idempotent. Tatsächlich werden die Koeffizienten auf den Ursprung verkleinert, wenn sie unendlich oft angewendet werden. Andererseits müssen die Koeffizienten immer noch in der Spanne der Prädiktoren liegen, so dass es sich immer noch um eine Projektion handelt, wenn auch nicht orthogonal. Die Höhe des Bestrafungsfaktors und die Art der Norm bestimmen den Abstand und die Richtung der Schrumpfung zum Ursprung.

JohnRos
quelle
1
Ich kann nicht verstehen, warum es nicht idempotent ist: Wenn ich den Vektor in den Raum projiziere (auch wenn es keine orthogonale Projektion ist) und die Koeffizienten einschränke, warum würde sich eine neue Projektion dieses projizierten Vektors von der vorherigen unterscheiden eins?
Lucas Reis
1
Intuitiv: Angenommen, Sie minimieren die bestrafte Quadratsumme ein zweites Mal. Die Quadratsumme bei der zweiten Minimierung ist kleiner als die Quadratsumme bei der ersten Minimierung. Die relative Bedeutung der Norm der bestraften Koeffizienten wird zunehmen, dh es gibt mehr zu gewinnen, wenn die Koeffizienten noch weiter gesenkt werden. Die Gratregression ist ein gutes Beispiel, bei dem Sie eine schöne geschlossene Form für die Hutmatrix haben und direkt überprüfen können, ob sie idempotent ist.
JohnRos