In linearen Modellen müssen wir prüfen, ob eine Beziehung zwischen den erklärenden Variablen besteht. Wenn sie zu stark korrelieren, liegt Kollinearität vor (dh die Variablen erklären sich teilweise gegenseitig). Ich betrachte gerade die paarweise Korrelation zwischen jeder der erklärenden Variablen.
Frage 1: Was stuft zu viel Korrelation ein? Ist beispielsweise eine Pearson-Korrelation von 0,5 zu viel?
Frage 2: Können wir anhand des Korrelationskoeffizienten vollständig bestimmen, ob zwischen zwei Variablen eine Kollinearität besteht, oder ob sie von anderen Faktoren abhängt?
Frage 3: Fügt eine grafische Überprüfung des Streudiagramms der beiden Variablen etwas zu dem hinzu, was der Korrelationskoeffizient angibt?
Antworten:
Es ist immer klug, sich Ihre Daten anzusehen und nicht nur numerische Zusammenfassungen / Testergebnisse. Die kanonische Referenz hier ist Anscombs Quartett .
quelle
Meine Sicht auf die drei Fragen ist
Viele Autoren argumentieren, dass (Multi-) Kollinearität kein Problem ist. Schauen Sie hier und hier für eine ziemlich saure Meinung zu diesem Thema. Das Fazit ist, dass Multikollinearität keinen Einfluss auf den Hypothesentest hat, außer dass die Stichprobengröße (effektiv) geringer ist. Es wird schwierig für Sie, die Regressionskoeffizienten zu interpretieren, wenn Sie beispielsweise eine Regression durchführen, aber Sie verletzen keine Grundannahme, wenn Sie sich dafür entscheiden.
Ich glaube, es gibt verschiedene Möglichkeiten, die Korrelation zwischen zwei Variablen zu messen, angefangen bei der Berechnung des Pearson-Korrelationskoeffizienten (wenn Sie von Linearität ausgehen und dies anscheinend auch getan haben) bis hin zu Spearmans Rang , Distanzkorrelation und sogar PCA für Ihren Datensatz. Aber ich würde die Antwort auf diese Frage besser informierten Menschen als mir überlassen.
IMO ist die Antwort Ton nein.
quelle
Eine übliche Methode zur Bewertung der Kollinearität sind Varianzinflationsfaktoren (VIFs). Dies kann in R mit der Funktion 'vif' im Paket 'car' erreicht werden. Dies hat den Vorteil, dass nur die Korrelationen zwischen zwei Variablen betrachtet werden, da gleichzeitig die Korrelation zwischen einer Variablen und den übrigen Variablen im Modell ausgewertet wird. Sie erhalten dann für jeden Prädiktor im Modell eine einzige Punktzahl.
Wie oben erwähnt, gibt es keine feste und schnelle Grenze, aber VIF-Werte werden oft als problematisch eingestuft, sobald sie zwischen 5 und 10 liegen. Ich verwende dafür feldspezifische Faustregeln. Es ist auch nicht unbedingt ungültig, korrelierte Prädiktoren zu verwenden (solange sie nicht perfekt korreliert sind). Sie benötigen nur mehr Daten, um die Effekte zu trennen. Wenn Sie nicht über genügend Daten verfügen, bestehen große Unsicherheiten bei den Parameterschätzungen der korrelierten Prädiktoren, und diese Schätzungen reagieren empfindlich auf erneute Stichproben.
Um Ihre Fragen gezielt zu beantworten:
Verwenden Sie keine Korrelationskoeffizienten. Verwenden Sie VIFs des Modells mit allen Prädiktoren und ohne Interaktionen. VIFs von 5-10 weisen auf eine zu starke Korrelation hin. Ihr spezifischer Grenzwert hängt davon ab, was Sie mit dem Modell tun müssen.
Dies hängt von den anderen Prädiktoren im Modell ab, weshalb die Verwendung von VIFs von Vorteil ist.
Nee! Mit der Statistik können Sie besser quantifizieren, was Sie mit dem Streudiagramm anstreben. Es sei denn, es liegt eine Super-Verletzung der Annahmen von OLS vor, wenn Sie Ihre Prädiktoren gegeneinander regressieren.
quelle