Gibt es eine intuitive Erklärung, warum Multikollinearität ein Problem bei der linearen Regression ist?

85

Das Wiki diskutiert die Probleme, die auftreten, wenn Multikollinearität ein Problem in der linearen Regression ist. Das Grundproblem ist, dass Multikollinearität zu instabilen Parameterschätzungen führt, was es sehr schwierig macht, die Auswirkung unabhängiger Variablen auf abhängige Variablen zu bewerten.

Ich verstehe die technischen Gründe für die Probleme (möglicherweise kann , schlecht konditioniertes usw. nicht invertiert werden ), suche jedoch nach einer intuitiveren (möglicherweise geometrischen?) Erklärung für dieses Problem.X ' XXXXX

Gibt es eine geometrische oder vielleicht eine andere leicht verständliche Erklärung, warum Multikollinearität im Kontext der linearen Regression problematisch ist?


quelle
4
Wirklich tolle Frage. Der beste Weg, etwas zu verstehen, ist aus mehreren Erklärungsrichtungen.
Tal Galili
1
Siehe auch verwandte Frage und visuelle Erklärung stats.stackexchange.com/q/70899/3277
ttnphns

Antworten:

89

Betrachten Sie den einfachsten Fall, in dem gegen und und in dem und in hohem Maße positiv korreliert sind. Dann ist die Wirkung von auf schwer von der Wirkung von auf da jede Zunahme von dazu neigt, mit einer Zunahme von .X Z X Z X Y Z Y X ZYXZXZXYZYXZ

Eine andere Sichtweise ist die Betrachtung der Gleichung. Wenn wir schreiben , dann ist der Koeffizient die Zunahme von für jede Einheitszunahme von während konstant gehalten wird. In der Praxis ist es jedoch oftmals unmöglich, konstant zu halten, und die positive Korrelation zwischen und bedeutet, dass eine Einheitszunahme von in der Regel gleichzeitig mit einer gewissen Zunahme von einhergeht .b 1 Y X Z Z X Z X ZY=b0+b1X+b2Z+eb1YXZZXZXZ

Eine ähnliche, aber kompliziertere Erklärung gilt für andere Formen der Multikollinearität.

Rob Hyndman
quelle
20
+1 Der extrem pathologische Fall mit hebt dies weiter hervor. und wären nicht zu unterscheiden. Y = b 0 + b 1 X + b 2 Z + e Y = b 0 + ( b 1 + b 2 ) X + 0 Z + eX=ZY=b0+b1X+b2Z+eY=b0+(b1+b2)X+0Z+e
VQV
1
+1 Diese Antwort gefällt mir, weil eine der häufigsten Fragen lautet, warum dann und . Inferenz muss realistische Eingaben berücksichtigen. b 2 < 0b1>0b2<0
Muratoa
29

Ich habe einmal Sushi gegessen und dachte, dass es eine gute intuitive Demonstration schlecht konditionierter Probleme sein könnte. Angenommen, Sie wollten jemandem ein Flugzeug mit zwei Stöcken zeigen, die sich an der Basis berühren.

Sie würden wahrscheinlich die Stöcke orthogonal zueinander halten. Die Auswirkung jeder Art von Wackelei Ihrer Hände auf das Flugzeug lässt es ein wenig um das wackeln, was Sie den Leuten zeigen wollten, aber nachdem Sie Sie eine Weile beobachtet haben, bekommen sie eine gute Vorstellung davon, welches Flugzeug Sie demonstrieren wollten.

Aber nehmen wir an, Sie bringen die Enden der Stöcke näher zusammen und beobachten, wie Ihre Hände zittern. Das Flugzeug, das es bildet, wird viel wilder schlagen. Ihr Publikum muss länger zuschauen, um eine gute Vorstellung davon zu bekommen, welches Flugzeug Sie demonstrieren möchten.

Imbiss
quelle
+1 Ich denke, dies beantwortet die Frage am direktesten. Denn obwohl Multikollinearität die Interpretation beeinflusst. Warum es imho ein Problem ist, ist die Stabilität in der Schätzung.
Muratoa
+1 Für das Posten dieses Kommentars (und nur dieses Kommentars in der Geschichte von Stackoverflow) unter dem Benutzernamen Snackrifice.
Stackoverflax
19

Der geometrische Ansatz besteht darin, die Projektion der kleinsten Quadrate von auf den von aufgespannten Unterraum zu berücksichtigen .XYX

Angenommen, Sie haben ein Modell:

E[Y|X]=β1X1+β2X2

Unser Schätzraum ist die Ebene, die durch die Vektoren und und das Problem besteht darin, Koordinaten zu finden, die die den Vektor , eine Projektion der kleinsten Quadrate von auf diese Ebene.X1X2Y Y(β1,β2)Y^Y

Angenommen, , dh sie sind kollinear. Dann ist der durch und bestimmte Unterraum nur eine Linie, und wir haben nur einen Freiheitsgrad. Wir können also nicht zwei Werte und bestimmen, wie wir gefragt wurden. X 1 X 2 β 1 β 2X1=2X2X1X2β1β2

ars
quelle
2
Ich habe vor langer Zeit upvoted, aber als ich Ihre Antwort noch einmal las, erinnerte es mich daran, dass ich Plane Answers to Complex Questions von Christensen ( j.mp/atRp9w ) immer mochte .
chl
@chl: cool, werde es dann auf jeden Fall ausprobieren. :)
Ars
14

Zwei Leute schieben einen Felsbrocken einen Hügel hinauf. Sie möchten wissen, wie stark jeder von ihnen drängt. Angenommen, Sie sehen, wie sie zehn Minuten lang zusammengeschoben werden und der Felsblock sich drei Meter weit bewegt. Hat der erste die ganze Arbeit gemacht und der zweite hat sie nur vorgetäuscht? Oder umgekehrt? Oder 50-50? Da beide Kräfte genau zur gleichen Zeit arbeiten, können Sie die Stärke von beiden nicht separat trennen. Alles, was Sie sagen können, ist, dass ihre kombinierte Kraft 1 Fuß pro Minute ist.

Stellen Sie sich vor, der erste drückt eine Minute lang selbst, dann neun Minuten mit dem zweiten, und die letzte Minute ist nur der zweite, der drückt. Jetzt können Sie die Kraftschätzungen in der ersten und letzten Minute verwenden, um die Kraft jeder Person separat zu ermitteln. Obwohl sie noch weitgehend gleichzeitig arbeiten, können Sie aufgrund der geringen Unterschiede Schätzungen der jeweiligen Kraft abrufen.

Wenn Sie jeden Mann zehn Minuten lang unabhängig schieben sehen, erhalten Sie genauere Schätzungen der Kräfte als bei einer großen Überlappung der Kräfte.

Ich überlasse es dem Leser, diesen Fall auf einen bergauf und einen bergab drückenden Mann auszudehnen (es funktioniert immer noch).

Perfekte Mehrfarbenlinearität verhindert, dass Sie die Kräfte separat abschätzen können. Nahezu Multicolinearität führt zu größeren Standardfehlern.

Charlie
quelle
6

Die Art und Weise, wie ich darüber denke, ist in Bezug auf Informationen. Angenommen , jeder von und hat einige Informationen über . Je mehr und miteinander korreliert sind, desto ähnlicher oder überlappender ist der Informationsgehalt über von und bis zu dem Punkt, an dem perfekt korreliert ist. und ist es wirklich der gleiche Informationsgehalt. Wenn wir nun und in dasselbe (Regressions-) Modell setzen, um zu erklären , versucht das Modell, die Informationen, die ( X 2 Y X 1 X 2 Y X 1 X 2 X 1 X 2 X 1 X 2 Y X 1X1X2YX1X2YX1X2X1X2X1X2YX1 , ) enthält ungefähr zu jedem von und auf eine etwas willkürliche Weise. Es gibt keinen wirklich guten Weg, dies aufzuteilen, da eine Aufteilung der Informationen immer noch dazu führt, dass die Gesamtinformationen von ( , ) im Modell erhalten (für perfekt korrelierte ist dies wirklich ein Nichtidentifizierbarkeit). Dies führt zu instabilen Einzelschätzungen für die einzelnen Koeffizienten von und , wenn man jedoch die vorhergesagten Werte über viele Läufe und betrachtet Schätzungen von und Y X 1 X 2 X 1 X 2 X X 1 X 2X2YX1X2X1X2XX1X2b1X1+b2X2b1b2werden diese recht stabil sein.

Abhijit
quelle
4

Meine (sehr) Laien-Intuition dafür ist, dass das OLS-Modell einen bestimmten Pegel von "Signal" in der X-Variablen benötigt, um zu erkennen, dass es eine "gute" Vorhersage für Y liefert. Wenn dasselbe "Signal" über viele X verteilt ist (weil sie korreliert sind), dann kann keines der korrelierten X genug von einem "Beweis" (statistische Signifikanz) geben, dass es ein echter Prädiktor ist.

Die vorangegangenen (wunderbaren) Antworten liefern eine großartige Erklärung, warum dies der Fall ist.

Tal Galili
quelle
3

Angenommen, zwei Personen haben zusammengearbeitet und wissenschaftliche Entdeckungen erzielt. Es ist einfach, ihre einzigartigen Beiträge (wer hat was getan) zu sagen, wenn zwei völlig unterschiedliche Personen sind (eine ist ein Theoretiker und die andere kann gut experimentieren), während es schwierig ist, ihre einzigartigen Einflüsse (Regressionskoeffizienten) zu unterscheiden, wenn sie es sind Zwillinge verhalten sich ähnlich.

Jung
quelle
2

Wenn zwei Regressoren perfekt korreliert sind, können ihre Koeffizienten nicht berechnet werden. Es ist hilfreich zu überlegen, warum es schwierig ist, sie zu interpretieren, wenn wir sie berechnen könnten . Dies erklärt in der Tat, warum es schwierig ist, Variablen zu interpretieren, die nicht perfekt korrelieren, aber auch nicht wirklich unabhängig sind.

Angenommen, unsere abhängige Variable ist die tägliche Versorgung mit Fisch in New York, und unsere unabhängigen Variablen enthalten eine für die Regenmenge an diesem Tag und eine für die an diesem Tag gekaufte Ködermenge. Was wir nicht merken, wenn wir unsere Daten erfassen, ist, dass Fischer jedes Mal, wenn es regnet, keinen Köder kaufen und jedes Mal, wenn es nicht regnet, eine konstante Menge an Köder kaufen. Köder und Regen sind also perfekt korreliert, und wenn wir unsere Regression ausführen, können wir ihre Koeffizienten nicht berechnen. In Wirklichkeit sind Köder und Regen wahrscheinlich nicht perfekt korreliert, aber wir möchten sie nicht beide als Regressoren einbeziehen, ohne sie irgendwie von ihrer Endogenität zu befreien.

Mitch Flachs
quelle
1

Ich denke, die Dummy-Variablenfalle bietet eine weitere nützliche Möglichkeit, um zu veranschaulichen, warum Multikollinearität ein Problem ist. Erinnern Sie sich, dass es entsteht, wenn wir eine Konstante und einen vollständigen Satz von Dummys im Modell haben. Dann addiert sich die Summe der Dummies zu einer, der Konstanten, also Multikollinearität.

ZB eine Puppe für Männer und eine für Frauen:

yi=β0+β1Mani+β2Womani+ui

Die Standardinterpretation von ist die erwartete Änderung von , die sich aus der Änderung von von 0 auf 1 ergibt . Ebenso ist die erwartete Änderung von , die sich aus der Änderung von von 0 auf 1 ergibt . Y M a n i β 2 Y W o m a n iβ1YManiβ2YWomani

Aber was soll dann darstellen ...? Es ist , also das erwartete Ergebnis für Personen, die weder ein Mann noch eine Frau sind ... es ist wahrscheinlich sicher zu sagen, dass dies für praktisch alle Datensätze nicht der Fall ist eine nützliche frage zu stellen :-). E ( y i | M a n i = 0 , W o m a n i = 0 )β0E(yi|Mani=0,Womani=0)

Christoph Hanck
quelle