Wann können wir von Kollinearität sprechen?

16

In linearen Modellen müssen wir prüfen, ob eine Beziehung zwischen den erklärenden Variablen besteht. Wenn sie zu stark korrelieren, liegt Kollinearität vor (dh die Variablen erklären sich teilweise gegenseitig). Ich betrachte gerade die paarweise Korrelation zwischen jeder der erklärenden Variablen.

Frage 1: Was stuft zu viel Korrelation ein? Ist beispielsweise eine Pearson-Korrelation von 0,5 zu viel?

Frage 2: Können wir anhand des Korrelationskoeffizienten vollständig bestimmen, ob zwischen zwei Variablen eine Kollinearität besteht, oder ob sie von anderen Faktoren abhängt?

Frage 3: Fügt eine grafische Überprüfung des Streudiagramms der beiden Variablen etwas zu dem hinzu, was der Korrelationskoeffizient angibt?

Stefan
quelle
2
Die Kollinearität (Singularität) unter 3+ Variablen wird nicht nur auf hohe paarweise Korrelationen reduziert. Durchsuchen Sie die Website nach Fragen mit dem Tag "Multikollinearität". Außerdem empfehle ich Ihnen, diese meine Antwort zu lesen: stats.stackexchange.com/a/70910/3277 .
TTNPHNS

Antworten:

3

Meine Sicht auf die drei Fragen ist

Frage 1 Was stuft zu viel Korrelation ein? Zum Beispiel: Eine Pearson-Korrelation von 0,5 ist das zu viel?

Viele Autoren argumentieren, dass (Multi-) Kollinearität kein Problem ist. Schauen Sie hier und hier für eine ziemlich saure Meinung zu diesem Thema. Das Fazit ist, dass Multikollinearität keinen Einfluss auf den Hypothesentest hat, außer dass die Stichprobengröße (effektiv) geringer ist. Es wird schwierig für Sie, die Regressionskoeffizienten zu interpretieren, wenn Sie beispielsweise eine Regression durchführen, aber Sie verletzen keine Grundannahme, wenn Sie sich dafür entscheiden.

Frage 2 Können wir anhand des Korrelationskoeffizienten vollständig bestimmen, ob zwischen zwei Variablen eine Kollinearität besteht, oder ob sie von anderen Faktoren abhängt?

Ich glaube, es gibt verschiedene Möglichkeiten, die Korrelation zwischen zwei Variablen zu messen, angefangen bei der Berechnung des Pearson-Korrelationskoeffizienten (wenn Sie von Linearität ausgehen und dies anscheinend auch getan haben) bis hin zu Spearmans Rang , Distanzkorrelation und sogar PCA für Ihren Datensatz. Aber ich würde die Antwort auf diese Frage besser informierten Menschen als mir überlassen.

Frage 3 Fügt eine grafische Überprüfung des Streudiagramms der beiden Variablen etwas zu dem hinzu, was der Korrelationskoeffizient angibt?

IMO ist die Antwort Ton nein.

pedrofigueira
quelle
3
Meiner Meinung nach ist die Antwort auf (3) im Gegenteil ein sehr starkes Ja: Während der Korrelationskoeffizient nur eine einzige numerische Einschätzung der Linearität einer Beziehung liefern kann, liefert ein kurzer Blick auf das Streudiagramm eine Fülle zusätzlicher Informationen darüber Beziehung, einschließlich Verhaltensweisen, die zuvor nicht erwartet wurden. Das eigentliche Interesse an dieser Reihe von Fragen besteht jedoch darin, wie die Beziehungen zwischen drei oder mehr Variablen bewertet werden können (obwohl (3) tatsächlich formuliert wurde), und in diesem Fall zeigt selbst eine Streudiagramm-Matrix nicht alles, wie @ttnphns feststellt.
whuber
1
Was (1) betrifft, habe ich Ihren Verweis (auf Dave Giles Blog) anders gelesen: Er argumentiert, dass formale Tests der Multikollinearität falsch sind. Ich sehe ihn nicht als Behauptung, dass Multikollinearität kein Problem ist.
whuber
Mein Verständnis der Antwort von Dave Gile ist, dass sich Multikollinearität nur durch eine entsprechend kleinere Stichprobengröße auf die Ergebnisse auswirkt. So wie es keinen Sinn macht, auf kleine Stichprobengrößen zu testen, macht es keinen Sinn, die Auswirkung von Multikollinearität zu testen. Aber ich würde mich freuen, Ihre Meinung dazu zu hören, vielleicht habe ich sie falsch verstanden.
pedrofigueira
Die Notwendigkeit einer größeren Stichprobe kann für die meisten Studien eine enorme Auswirkung haben! Ein subtilerer Effekt der Kollinearität betrifft die Modellbildung und die Variablenauswahl, wie ( unter anderem ) in Threads wie stats.stackexchange.com/questions/50537 und stats.stackexchange.com/a/28476/919 erläutert . Aber stellen wir sicher, dass wir über die gleichen Dinge sprechen: Giles diskutiert formale Tests der Multikollinearität, als ob die unabhängigen Variablen zufällig abgetastet würden. Hier scheint sich die Sorge auf die Verwendung von Multikollinearitätsdiagnostik zu konzentrieren , um die Fähigkeiten und Grenzen eines Modells zu verstehen.
whuber
1

Eine übliche Methode zur Bewertung der Kollinearität sind Varianzinflationsfaktoren (VIFs). Dies kann in R mit der Funktion 'vif' im Paket 'car' erreicht werden. Dies hat den Vorteil, dass nur die Korrelationen zwischen zwei Variablen betrachtet werden, da gleichzeitig die Korrelation zwischen einer Variablen und den übrigen Variablen im Modell ausgewertet wird. Sie erhalten dann für jeden Prädiktor im Modell eine einzige Punktzahl.

Wie oben erwähnt, gibt es keine feste und schnelle Grenze, aber VIF-Werte werden oft als problematisch eingestuft, sobald sie zwischen 5 und 10 liegen. Ich verwende dafür feldspezifische Faustregeln. Es ist auch nicht unbedingt ungültig, korrelierte Prädiktoren zu verwenden (solange sie nicht perfekt korreliert sind). Sie benötigen nur mehr Daten, um die Effekte zu trennen. Wenn Sie nicht über genügend Daten verfügen, bestehen große Unsicherheiten bei den Parameterschätzungen der korrelierten Prädiktoren, und diese Schätzungen reagieren empfindlich auf erneute Stichproben.

Um Ihre Fragen gezielt zu beantworten:

  1. Verwenden Sie keine Korrelationskoeffizienten. Verwenden Sie VIFs des Modells mit allen Prädiktoren und ohne Interaktionen. VIFs von 5-10 weisen auf eine zu starke Korrelation hin. Ihr spezifischer Grenzwert hängt davon ab, was Sie mit dem Modell tun müssen.

  2. Dies hängt von den anderen Prädiktoren im Modell ab, weshalb die Verwendung von VIFs von Vorteil ist.

  3. Nee! Mit der Statistik können Sie besser quantifizieren, was Sie mit dem Streudiagramm anstreben. Es sei denn, es liegt eine Super-Verletzung der Annahmen von OLS vor, wenn Sie Ihre Prädiktoren gegeneinander regressieren.

colin
quelle