Können unabhängige Variablen mit geringer Korrelation mit abhängigen Variablen signifikante Prädiktoren sein?

10

Ich habe acht unabhängige Variablen und eine abhängige. Ich habe eine Korrelationsmatrix erstellt, und 5 von ihnen haben eine geringe Korrelation mit dem DV. Ich habe dann eine schrittweise multiple Regression durchgeführt, um zu sehen, ob eine / alle IVs den DV vorhersagen können. Die Regression zeigte, dass nur zwei IVs den DV vorhersagen können (kann jedoch nur etwa 20% der Varianz ausmachen), und SPSS entfernte den Rest aus dem Modell. Mein Vorgesetzter geht davon aus, dass ich die Regression nicht korrekt ausgeführt habe, da ich aufgrund der Stärke der Korrelationen mehr Prädiktoren im Regressionsmodell hätte finden sollen. Aber die Korrelationen waren winzig, daher lautet meine Frage: Wenn IVs und DV kaum korrelieren, können IVs dann immer noch gute Prädiktoren für den DV sein?

Elle
quelle
5
Ihr Titel und Inhalt zeigen einige Verwechslungen zwischen den Begriffen "abhängig" und "unabhängig". Bitte überprüfen Sie, ob meine Bearbeitung Ihre beabsichtigte Bedeutung beibehält. Die Tatsache, dass die Leute verwirrt sind, was die Argumente für eine eindrucksvollere Terminologie wie "Antwort" oder "Ergebnis" anstelle von "abhängiger Variable" verstärkt. Schließlich ist bei Abkürzungen zu beachten, dass "IV" für viele Menschen eine instrumentelle Variable bedeutet .
Nick Cox
4
Ja es ist möglich. Ein Grund ist die hohe Stichprobengröße. Ein weiterer Grund ist verwirrend: Die wichtigste unabhängige Variable kann eine geringe Korrelation mit dem Abhängigen aufweisen, da sie von einer anderen unabhängigen Variablen bestätigt wird. Sobald dieser Confounder zum Modell hinzugefügt wurde, kann die ursprüngliche unabhängige Variable von nicht prädiktiv zu prädiktiv (oder prädiktiv zu nicht prädiktiv, je nach Art der Confounding) geändert werden. Die Regression stimmt nur dann vollständig mit allen Korrelationstests überein, wenn alle unabhängigen Variablen vorhanden sind sind unkorreliert, das passiert so gut wie nie.
Penguin_Knight
3
Wenn Sie eine schrittweise Regression sagen, "die zeigt, dass nur zwei IV den DV vorhersagen können", bedeutet dies, dass Sie nicht verstehen, wie es funktioniert. Wenn zwei IVs stark korreliert sind und beide den DV ungefähr gleich gut vorhersagen, kann ein schrittweises Verfahren einen ganz willkürlich entfernen. Was ist das Problem bei der Verwendung des vollständigen 8-IV-Modells?
Scortchi - Monica wieder einsetzen
3
Wenn Sie versucht sind, schrittweise zu verwenden, greifen Sie zu Frank Harrell, Regressionsmodellierungsstrategien Springer, NY, 2001, als Gegenmittel. Er ist auf dieser Seite aktiv und schießt wahrscheinlich Raketen, wenn er das Wort "schrittweise" hört.
Nick Cox
1
Je schwächer Ihr Verständnis für Statistiken ist, desto weniger sollten Sie mit variablen Auswahlverfahren herumspielen. Wenn Sie untersuchen möchten, wie sich jede IV auf die DV bezieht, nachdem Sie die anderen kontrolliert haben, sagen Ihnen genau die Koeffizientenschätzungen (mit ihren Konfidenzintervallen) aus dem vollständigen Modell. Ein Blick auf die Varianzinflationsfaktoren neben zeigt, wie Korrelationen zwischen IVs zur Unsicherheit beitragen. Verwenden Sie einen kreuzvalidierten oder angepassten Bestimmungskoeffizienten , um die Vorhersagefähigkeit des gesamten Modells zu bewerten und auf Überanpassung zu prüfen. R2
Scortchi - Monica wieder einsetzen

Antworten:

8

Mit einer Korrelationsmatrix untersuchen Sie bedingungslose (grobe) Assoziationen zwischen Ihren Variablen. Mit einem Regressionsmodell untersuchen Sie die gemeinsamen Assoziationen Ihrer IVs mit Ihren DVs und betrachten so bedingte Assoziationen (für jede IV die Assoziation mit dem DV , die von den anderen IVs abhängig ist ). Abhängig von der Struktur Ihrer Daten können diese beiden sehr unterschiedliche, sogar gegensätzliche Ergebnisse liefern.

miura
quelle
5

Zufälligerweise habe ich mir nur ein Beispiel angesehen, das ich zuvor erstellt hatte, um ähnliche Konzepte zu zeigen (um tatsächlich eines der Probleme mit der schrittweisen Regression aufzuzeigen). Hier ist R-Code zum Erstellen und Analysieren eines simulierten Datensatzes:

set.seed(1)
x1 <- rnorm(25)
x2 <- rnorm(25, x1)
y <- x1-x2 + rnorm(25)
pairs( cbind(y,x1,x2) )    # Relevant results of each following line appear below...
cor( cbind(y,x1,x2) )      # rx1y  =   .08      rx2y = -.26      rx1x2 = .79
summary(lm(y~x1))          # t(23) =   .39         p = .70
summary(lm(y~x2))          # t(23) = -1.28         p = .21
summary(lm(y~x1+x2))       # t(22) =  2.54, -2.88  p = .02, .01 (for x1 & x2, respectively)

Die Korrelationen und einfachen linearen Regressionen zeigen niedrige (nicht statistisch signifikante) Beziehungen zwischen und jeder der Variablen. Aber wurde als Funktion beider definiert , und die multiple Regression zeigt beide als signifikante Prädiktoren.x y xyxyx

Greg Snow
quelle
4

Ihre Frage wäre einfacher zu beantworten, wenn wir quantitative Details aus Ihrer Software-Ausgabe sehen und im Idealfall auch die Daten sehen könnten.

Was ist insbesondere "geringe Korrelation"? Welches Signifikanzniveau verwenden Sie? Gibt es integrierte Beziehungen zwischen Prädiktoren, die dazu führen, dass SPSS einige fallen lässt?

Beachten Sie, dass wir nicht beurteilen können, ob Sie die beste oder am besten geeignete Syntax für Ihren Zweck verwendet haben, da Sie nicht genau angeben, was Sie getan haben.

Im Großen und Ganzen bedeuten niedrige Korrelationen zwischen Prädiktoren und Ergebnissen, dass die Regression genauso enttäuschend sein kann, wie Sie Schokolade für die Herstellung von Schokoladenkuchen benötigen. Geben Sie uns mehr Details, und Sie sollten eine bessere Antwort erhalten.

Auch im Großen und Ganzen bedeutet die Enttäuschung Ihres Vorgesetzten nicht, dass Sie das Falsche getan haben. Wenn Ihr Vorgesetzter weniger Statistiken kennt als Sie, müssen Sie sich von anderen Personen in Ihrer Einrichtung beraten und unterstützen lassen.

Nick Cox
quelle
Vielen Dank an alle. Ich weiß, das ist eine kleine Babyfrage. Ich habe Stress wahrgenommen, da mein DV und meine IVs Kontrollort (mit 3 Subskalen), soziale Unterstützung, Bewältigung der Selbstwirksamkeit (3 Subskalen) und emotionale Intelligenz (alle beziehen sich auf Fragebögen mit Selbstberichten) sind, und ich möchte wissen, wie / ob Die DVs können wahrgenommenen Stress vorhersagen. Ich habe mir die Korrelationen zwischen allen Variablen angesehen, sie liegen meist unter 0,40, das Signifikanzniveau liegt bei 0,001. Ich habe zuerst eine Pearsons-Korrelation durchgeführt, um festzustellen, ob die DVs mit dem wahrgenommenen Stress korrelieren, und dann die Regression, um festzustellen, ob sie Stress vorhersagen können.
Elle
1
Wie @miura zu Recht betont, können lustige Dinge passieren, aber diese Ergebnisse scheinen vollkommen mit einem relativ niedrigen übereinzustimmen . R2
Nick Cox