Ist Multikollinearität wirklich ein Problem?

11

Ich arbeite derzeit an einem Vorhersagemodellierungsprojekt: Ich versuche, ein Modell zu lernen und Echtzeitvorhersagen auf der Grundlage des Modells zu treffen, das ich offline gelernt habe.

Ich habe kürzlich angefangen, die Ridge-Regression zu verwenden, weil ich gelesen habe, dass Regularisierung dazu beitragen kann, den Effekt der Multikollinearität zu verringern.

Allerdings habe ich diesen Blog heute gelesen . Ich bin jetzt total verwirrt. Laut diesem Blog schadet Multikollinearität der Vorhersagekraft eines Modells NICHT so sehr.

Ist Multikollinearität am Ende ein Problem oder nicht?

user152503
quelle
2
In einigen Einstellungen (z. B. OLS) ist dies ein Problem, in anderen Einstellungen (z. B. Entscheidungsbaum oder Regularisierung) kein Problem.
Haitao Du
6
@ hxd1011, würde ich sagen, nicht genau. Es ist ein Problem, wenn wir eine erklärende Modellierung durchführen, aber einige Techniken sind besser als andere, um es anzugehen (OLS vs. Ridge Regression). Es ist weniger ein Problem für die Vorhersage, wie Rob J. Hyndman im zitierten Blog-Beitrag feststellt.
Richard Hardy
1
Es ist ein größeres Problem, wenn Ihre Prädiktoren fehlerhaft gemessen werden. Bei perfekt gemessenen Prädiktoren (wie kategorialen Variablen ohne Messprobleme) sollte dies weniger bedenklich sein.
kjetil b halvorsen
1
Mikronumerosität ist das eigentliche Problem.
The Laconic

Antworten:

12

Es ist ein Problem für die kausale Inferenz - oder besser gesagt, es weist auf Schwierigkeiten bei der kausalen Inferenz hin -, aber es ist kein besonderes Problem für die Vorhersage / Vorhersage (es sei denn, es ist so extrem, dass es die Konvergenz des Modells verhindert oder zu singulären Matrizen führt, und dann werden Sie es nicht bekommen Vorhersagen sowieso). Ich denke, das ist auch die Bedeutung dieses Blogposts. Es hört sich so an, als ob Sie auf einer Ja-oder-Nein-Antwort bestehen, wenn die Antwort lautet, dass es darauf ankommt. Hier ist, worauf es ankommt und warum zumindest gesagt werden kann, dass (nicht perfekte) Multikollinearität niemals ein Grund ist, eine Variable aus einem Modell zu löschen - Probleme, auf die Multikollinearität hinweist, werden nicht behoben, weil Sie eine Variable gelöscht und gestoppt haben die Kollinearität sehen.

Prädiktoren, die stark miteinander korreliert sind, verbessern Ihre Vorhersagen nicht so gut wie wenn sie nicht kollinear wären, aber dennoch separat mit der Ergebnisvariablen korrelieren. Keiner macht viel mehr Arbeit als der andere bereits und würde es sowieso alleine tun. Vielleicht sind sie so stark miteinander verwandt, weil sie im Grunde das gleiche zugrunde liegende Konstrukt erfassen. In diesem Fall fügt keiner aus gutem Grund viel mehr übereinander hinzu, und es wäre unmöglich, sie zur Vorhersage ontologisch zu trennen Zweck jedenfalls durch Manipulieren der Beobachtungseinheiten, um unterschiedliche Werte für jede der beiden Prädiktorvariablen zu haben, so dass sie besser als Prädiktoren funktionieren. Dies bedeutet jedoch nicht, dass es schlecht oder falsch ist, beide unverändert in Ihr Modell aufzunehmen.

Wenn es um kausale Folgerungen geht, ist dies ein Problem, einfach weil es uns daran hindert, zumindest sicher zu sagen, welcher der kollinearen Prädiktoren die Vorhersage und damit die Erklärung und vermutlich die Ursache vornimmt. Mit genügend Beobachtungen können Sie schließlich die einzelnen Effekte selbst hochkollinearer (aber niemals perfekt kollinearer) Variablen identifizieren. Deshalb nennen Rob Franzese und UMich Multikollinearität gerne "Mikronumerosität". Es gibt immer eine gewisse Kollinearität zwischen Prädiktoren. Das ist einer der Gründe, warum wir im Allgemeinen nur viele Beobachtungen brauchen. Manchmal eine unmögliche Menge für unsere kausalen Inferenzbedürfnisse. Das Problem ist jedoch die Komplexität der Welt und die unglücklichen Umstände, die uns daran hindern, eine größere Vielfalt von Situationen zu beobachten, in denen verschiedene Faktoren im Verhältnis zueinander stärker variieren. Multikollinearität ist das Symptom für diesen Mangel an nützlichen Daten, und multivariate Regression ist die (unvollständige) Heilung. Dennoch scheinen so viele Menschen Multikollinearität als etwas zu betrachten, das sie mit ihrem Modell falsch machen, und als ob es ein Grund ist, an ihren Erkenntnissen zu zweifeln.

Warmwasser
quelle
7

Es ist kein Problem für die prädiktive Modellierung, wenn Sie sich nur um die Prognose und sonst nichts kümmern.

y=β+βxx+βzz+ε
z=αx

(XTX)1

y=β+βxx+βzαx+ε=β+β2x+ε,
β2βx+βzα

β^2

β^zβ^x=β2αβ^x(β^x,β^z)β^2y^β^2

xyβ^x

Aksakal
quelle
2

Multikollinearität ist im Allgemeinen nicht das beste Szenario für die Regressionsanalyse. Unser Leben wäre viel einfacher, wenn alle Prädiktoren orthogonal wären.

Es ist ein Problem für die Modellinterpretation (versuchen, die Daten zu verstehen):

  • Multikollinearität beeinflusst die Varianz der Koeffizientenschätzer und damit die Schätzgenauigkeit.
  • Daher wäre es schwieriger, eine Nullhypothese abzulehnen (aufgrund der höheren Standardfehler). Wir haben ein Fehlerproblem vom Typ II.
  • Das Hinzufügen oder Löschen von nur wenigen Probenbeobachtungen kann die geschätzten Koeffizienten erheblich verändern
  • Die Vorzeichen des geschätzten Koeffizienten können das Gegenteil der erwarteten sein.

Stellen Sie sich vor, Sie müssen Ihrem Chef einen Bericht über Ihre Daten schreiben. Sie erstellen ein nahezu perfektes Multikollinearitätsmodell und erzählen Ihrem Chef von dem Modell. Sie könnten sagen: " Mein erster Prädiktor ist positiv mit der Antwort korreliert. Ich werde Ihnen mehr darüber erzählen, warum. Ihr Chef ist glücklich, bittet Sie jedoch, es ohne einige Datenpunkte erneut zu versuchen. Ihre Koeffizienten in Ihrem neuen Modell." ist jetzt ... ganz anders , der Koeffizient für Ihren ersten Prädiktor ist jetzt negativ! Ihr Chef wird Ihnen nicht mehr vertrauen! Ihr Modell ist nicht robust.

R2

Hallo Welt
quelle
-1

Ich würde argumentieren, dass, wenn sich die Korrelation zwischen einer Variablen und einer anderen Variablen (oder einer linearen Kombination von Variablen) zwischen den Daten innerhalb und außerhalb der Stichprobe ändert, Sie feststellen können, dass Multikollinearität die Genauigkeit von Daten außerhalb der Stichprobe beeinflusst Vorhersagen. Multikollinearität fügt nur eine weitere Annahme hinzu (konsistente Korrelation), die angemessen erfüllt sein muss, damit Ihr Modell weiterhin eine gute Leistung erbringt.

Chris
quelle