Wie gehe ich mit hoher Korrelation zwischen Prädiktoren bei multipler Regression um?

18

Ich habe einen Verweis in einem Artikel gefunden, der wie folgt lautet:

Nach Tabachnick & Fidell (1996) sollten die unabhängigen Variablen mit einer bivariaten Korrelation von mehr als 0,70 nicht in die multiple Regressionsanalyse einbezogen werden.

Problem: Ich habe in einem Design mit mehreren Regressionen 3 Variablen verwendet, die> .80 korrelierten, VIFs bei ca. .2 - .3, Toleranz ~ 4-5. Ich kann keine davon ausschließen (wichtige Prädiktoren und Ergebnisse). Wenn ich das Ergebnis der beiden Prädiktoren, die bei 0,80 korrelierten, zurückführte, blieben beide signifikant, wobei jede wichtige Varianzen vorhersagte, und dieselben beiden Variablen haben den größten Teil und semipartielle Korrelationskoeffizienten unter allen 10 eingeschlossenen Variablen (5 Kontrollen).

Frage: Ist mein Modell trotz hoher Korrelationen gültig? Referenzen sehr willkommen!


Danke für die Antworten!

Ich habe Tabachnick und Fidell nicht als Richtlinie verwendet, sondern diese Referenz in einem Artikel gefunden, der sich mit hoher Kollinearität unter Prädiktoren befasst.

Im Grunde habe ich zu wenige Fälle für die Anzahl der Prädiktoren im Modell (viele kategoriale, Dummy-codierte Kontrollvariablen - Alter, Amtszeit, Geschlecht usw.) - 13 Variablen für 72 Fälle. Der Bedingungsindex beträgt ~ 29 mit allen Steuerelementen in und ~ 23 ohne sie (5 Variablen).

Ich kann keine Variablen fallen lassen oder eine faktorielle Analyse verwenden, um sie zu kombinieren, da sie theoretisch für sich genommen Sinn haben. Es ist zu spät, um weitere Daten zu erhalten. Da ich die Analyse in SPSS durchführe, ist es vielleicht am besten, eine Syntax für die Ridge-Regression zu finden (obwohl ich dies vorher noch nicht getan habe und die Interpretation der Ergebnisse für mich neu wäre).

Wenn es darauf ankommt, blieben bei der schrittweisen Regression dieselben zwei stark korrelierten Variablen die einzigen signifikanten Prädiktoren für das Ergebnis.

Und ich verstehe immer noch nicht, ob die Teilkorrelationen, die für jede dieser Variablen hoch sind, eine Erklärung dafür sind, warum ich sie im Modell belassen habe (falls keine Kammregression durchgeführt werden kann).

Würden Sie sagen, dass die "Regressionsdiagnose: Ermittlung einflussreicher Daten und Quellen für Kollinearität / David A. Belsley, Edwin Kuh und Roy E. Welsch, 1980" für das Verständnis der Multikollinearität hilfreich wäre? Oder könnten andere Referenzen nützlich sein?

Ander
quelle
2
Ein explizites Beispiel für diese Situation finden Sie in der Analyse von 10 IVs unter stats.stackexchange.com/a/14528 . Hier sind alle IVs stark korreliert (ca. 60%). Aber wenn Sie alle ausgeschlossen hätten, hätten Sie nichts mehr übrig! Häufig können Sie keine dieser Variablen löschen. Dies macht die T & F-Empfehlung unhaltbar.
Whuber
In der Tat gibt es eine Reihe von Äußerungen in Tabachnick und Fidell, die ich für zumindest etwas zweifelhaft halte ... Nur weil etwas in einem Buch gedruckt ist, bedeutet das nicht, dass es immer Sinn ergibt.
Glen_b -Reinstate Monica

Antworten:

20

Das Hauptproblem ist nicht die Korrelation, sondern die Kollinearität (siehe zum Beispiel Arbeiten von Belsley). Dies wird am besten unter Verwendung Bedingung Indizes (erhältlich in getestet R, SASund wahrscheinlich auch andere Programme. Die Korrelation ist weder eine notwendige noch eine hinreichende Bedingung für Kollinearität. Zustand Indizes über 10 (pro Belsley) weisen auf moderate Kollinearität, mehr als 30 schwere, aber es hängt auch auf welche Variablen in der Kollinearität beteiligt sind.

Wenn Sie eine hohe Kollinearität feststellen, bedeutet dies, dass Ihre Parameterschätzungen instabil sind. Das heißt, kleine Änderungen (manchmal in der 4. signifikanten Zahl) in Ihren Daten können große Änderungen in Ihren Parameterschätzungen verursachen (manchmal sogar deren Vorzeichen umkehren). Das ist eine schlechte Sache.

Abhilfemaßnahmen sind 1) Weitere Daten abrufen 2) Eine Variable löschen 3) Die Variablen kombinieren (z. B. mit partiellen kleinsten Quadraten) und 4) Eine Gratregression durchführen, die voreingenommene Ergebnisse liefert, aber die Varianz der Schätzungen verringert.

Peter Flom - Wiedereinsetzung von Monica
quelle
Tabachnick und Fidell haben ein schönes multivariates Buch für Sozialwissenschaften geschrieben. Sie sind keine Statistiker, aber sie kennen sich mit Multivariaten bestens aus. Ich denke jedoch, dass sie möglicherweise Faustregeln zur Vereinfachung erstellen und statistische Feinheiten übersehen. Ich würde mich also mehr auf das verlassen, was Peter in seinen Antworten sagt, als auf seine Arbeit.
Michael R. Chernick
Danke @MichaelChernick. Ich habe meine Dissertation über Kollinearitätsdiagnostik für multiple Regression geschrieben.
Peter Flom - Wiedereinsetzung von Monica
Ich gehe davon aus, dass Sie so alt sind wie ich und Ihre Arbeit daher nach der Arbeit von Belsley, Kuh und Welsch und Cook kam. Ich weiß, dass sich Cooks Arbeit hauptsächlich mit anderen diagnostischen Fragen befasste (Hebelwirkung und Nicht-Normalität), aber hat er irgendetwas mit Multikollinearität gemacht? Natürlich geht das Konzept der Gratregression sogar auf meine Zeit zurück
Michael R. Chernick,
1
@Peter Flom: Warum ist Korrelation für die Kollinearität weder eine notwendige noch eine hinreichende Bedingung? Beziehen Sie sich auf nichtlineare Korrelation?
Julian
5
Dies ist nicht erforderlich, da bei einer großen Anzahl von Variablen alle Paare nur geringfügig korreliert werden können, ihre Summe jedoch perfekt kollinear ist. Dies ist nicht ausreichend, da es Fälle gibt, in denen eine relativ hohe Korrelation keine störenden Kollinearitätsindizes pro Bedingung ergibt
Peter Flom - Reinstate Monica