Ich habe einen Verweis in einem Artikel gefunden, der wie folgt lautet:
Nach Tabachnick & Fidell (1996) sollten die unabhängigen Variablen mit einer bivariaten Korrelation von mehr als 0,70 nicht in die multiple Regressionsanalyse einbezogen werden.
Problem: Ich habe in einem Design mit mehreren Regressionen 3 Variablen verwendet, die> .80 korrelierten, VIFs bei ca. .2 - .3, Toleranz ~ 4-5. Ich kann keine davon ausschließen (wichtige Prädiktoren und Ergebnisse). Wenn ich das Ergebnis der beiden Prädiktoren, die bei 0,80 korrelierten, zurückführte, blieben beide signifikant, wobei jede wichtige Varianzen vorhersagte, und dieselben beiden Variablen haben den größten Teil und semipartielle Korrelationskoeffizienten unter allen 10 eingeschlossenen Variablen (5 Kontrollen).
Frage: Ist mein Modell trotz hoher Korrelationen gültig? Referenzen sehr willkommen!
Danke für die Antworten!
Ich habe Tabachnick und Fidell nicht als Richtlinie verwendet, sondern diese Referenz in einem Artikel gefunden, der sich mit hoher Kollinearität unter Prädiktoren befasst.
Im Grunde habe ich zu wenige Fälle für die Anzahl der Prädiktoren im Modell (viele kategoriale, Dummy-codierte Kontrollvariablen - Alter, Amtszeit, Geschlecht usw.) - 13 Variablen für 72 Fälle. Der Bedingungsindex beträgt ~ 29 mit allen Steuerelementen in und ~ 23 ohne sie (5 Variablen).
Ich kann keine Variablen fallen lassen oder eine faktorielle Analyse verwenden, um sie zu kombinieren, da sie theoretisch für sich genommen Sinn haben. Es ist zu spät, um weitere Daten zu erhalten. Da ich die Analyse in SPSS durchführe, ist es vielleicht am besten, eine Syntax für die Ridge-Regression zu finden (obwohl ich dies vorher noch nicht getan habe und die Interpretation der Ergebnisse für mich neu wäre).
Wenn es darauf ankommt, blieben bei der schrittweisen Regression dieselben zwei stark korrelierten Variablen die einzigen signifikanten Prädiktoren für das Ergebnis.
Und ich verstehe immer noch nicht, ob die Teilkorrelationen, die für jede dieser Variablen hoch sind, eine Erklärung dafür sind, warum ich sie im Modell belassen habe (falls keine Kammregression durchgeführt werden kann).
Würden Sie sagen, dass die "Regressionsdiagnose: Ermittlung einflussreicher Daten und Quellen für Kollinearität / David A. Belsley, Edwin Kuh und Roy E. Welsch, 1980" für das Verständnis der Multikollinearität hilfreich wäre? Oder könnten andere Referenzen nützlich sein?
Antworten:
Das Hauptproblem ist nicht die Korrelation, sondern die Kollinearität (siehe zum Beispiel Arbeiten von Belsley). Dies wird am besten unter Verwendung Bedingung Indizes (erhältlich in getestet
R
,SAS
und wahrscheinlich auch andere Programme. Die Korrelation ist weder eine notwendige noch eine hinreichende Bedingung für Kollinearität. Zustand Indizes über 10 (pro Belsley) weisen auf moderate Kollinearität, mehr als 30 schwere, aber es hängt auch auf welche Variablen in der Kollinearität beteiligt sind.Wenn Sie eine hohe Kollinearität feststellen, bedeutet dies, dass Ihre Parameterschätzungen instabil sind. Das heißt, kleine Änderungen (manchmal in der 4. signifikanten Zahl) in Ihren Daten können große Änderungen in Ihren Parameterschätzungen verursachen (manchmal sogar deren Vorzeichen umkehren). Das ist eine schlechte Sache.
Abhilfemaßnahmen sind 1) Weitere Daten abrufen 2) Eine Variable löschen 3) Die Variablen kombinieren (z. B. mit partiellen kleinsten Quadraten) und 4) Eine Gratregression durchführen, die voreingenommene Ergebnisse liefert, aber die Varianz der Schätzungen verringert.
quelle