Warum funktioniert Ridge Regression bei Multikollinearität gut?

13

Ich lerne etwas über die Gratregression und weiß, dass die Gratregression bei Multikollinearität tendenziell besser funktioniert. Ich frage mich, warum das so ist? Entweder eine intuitive oder eine mathematische Antwort wäre zufriedenstellend (beide Arten von Antworten wären sogar noch zufriedenstellender).

Außerdem weiß ich , dass das β immer erhalten werden, aber wie gut funktioniert Firstregressions Arbeit in Gegenwart von genauer Kollinearität (einer unabhängigen Variable ist eine lineare Funktion eines anderen)?β^

TrynnaDoStat
quelle
5
Zu Ihrer zweiten Frage: Wenn Sie eine exakte Kolinearität haben, können Sie einfach eine der Variablen entfernen. Du brauchst keine Gratregression.
Peter Flom - Reinstate Monica

Antworten:

13

x1x2yist die 3. Dimension) und es gibt oft eine sehr klare "beste" Ebene. Aber mit Colinearität ist die Beziehung wirklich eine Linie durch den dreidimensionalen Raum mit Daten, die um ihn herum verstreut sind. Die Regressionsroutine versucht jedoch, eine Ebene an eine Linie anzupassen, sodass es unendlich viele Ebenen gibt, die sich perfekt mit dieser Linie schneiden. Welche Ebene ausgewählt wird, hängt von den Einflusspunkten in den Daten ab. Ändern Sie einen dieser Punkte nur geringfügig und die "beste" passende Ebene ändert sich ziemlich viel. Die Gratregression bewirkt, dass die gewählte Ebene in Richtung einfacherer / sanerer Modelle gezogen wird (Bias-Werte in Richtung 0). Stellen Sie sich ein Gummiband vom Ursprung (0,0,0) bis zur Ebene vor, das die Ebene in Richtung 0 zieht, während die Daten sie für einen guten Kompromiss wegziehen.

Greg Snow
quelle
@Trynna, es gibt Bilder, die zeigen, was Greg über das Kollinearitätsproblem gesagt hat.
TTNPHNS
1
Dies ist eine sehr gute geometrische Erklärung, warum Multikollinearität ein Problem bei der OLS-Regression ist! Aber ich verstehe immer noch nicht ganz, warum das Problem dadurch behoben wird, dass das Flugzeug zum Ursprung gezogen wird.
TrynnaDoStat
2
@TrynnaDoStat, Das Hauptanliegen ist die Variabilität der Schätzungen, mit der Multicolinearität, eine kleine Änderung in einem einzelnen Datenpunkt kann die Koeffizientenschätzungen wild schwingen (ohne die Verzerrung). Bei einer Voreinstellung auf 0 ändert sich die Schätzung der Koeffizienten nicht wesentlich (da das Gummiband sie auf 0 zieht), wobei sich eine geringfügige Änderung an einem einzelnen Datenpunkt ergibt, wodurch die Variabilität verringert wird.
Greg Snow
Vielen Dank an @ttnphns für den Link zu den Bildern: Ohne diesen Link war es ziemlich langwierig, die Antwort zu bekommen. Jetzt ist Gregs Antwort klar und was ich brauchte, um diese Zeile in ESLII (2. Ausgabe) zu verstehen: "Ein wild großer positiver Koeffizient für eine Variable kann durch einen ähnlich großen negativen Koeffizienten für ihren korrelierten Cousin aufgehoben werden. Durch Auferlegen einer Größenbeschränkung für die Koeffizienten wird dieses Problem gemildert.
Tommaso Guerrini