X und Y sind nicht korreliert, aber X ist ein signifikanter Prädiktor für Y bei multipler Regression. Was heißt das?

34

X und Y sind nicht korreliert (-.01); Wenn ich jedoch X in eine multiple Regression lege, die Y vorhersagt, sind neben drei (A, B, C) anderen (verwandten) Variablen auch X und zwei andere Variablen (A, B) signifikante Prädiktoren für Y. Beachten Sie, dass die beiden anderen ( A, B) Variablen sind außerhalb der Regression signifikant mit Y korreliert.

Wie soll ich diese Erkenntnisse interpretieren? X sagt eine eindeutige Varianz in Y voraus, aber da diese nicht korreliert sind (Pearson), ist es irgendwie schwierig zu interpretieren.

Ich kenne gegensätzliche Fälle (dh zwei Variablen sind korreliert, aber die Regression ist nicht signifikant) und diese sind aus theoretischer und statistischer Sicht relativ einfach zu verstehen. Beachten Sie, dass einige der Prädiktoren ziemlich korreliert sind (z. B. 0,70), jedoch nicht in dem Maße, wie ich eine erhebliche Multikollinearität erwarten würde. Vielleicht irre ich mich aber.

HINWEIS: Ich habe diese Frage zuvor gestellt und sie wurde geschlossen. Das Rationale war, dass diese Frage mit der Frage " Wie kann eine Regression signifikant sein, aber alle Prädiktoren sind nicht signifikant? " Überflüssig ist.". Vielleicht verstehe ich die andere Frage nicht, aber ich glaube, dass dies sowohl mathematisch als auch theoretisch völlig getrennte Fragen sind. Meine Frage ist völlig unabhängig davon, ob" eine Regression signifikant ist ". Außerdem sind mehrere Prädiktoren signifikant, während die andere Frage Da Variablen nicht signifikant sind, wird die Überlappung nicht angezeigt. Wenn diese Fragen aus Gründen, die ich nicht verstehe, überflüssig sind, fügen Sie bitte einen Kommentar ein, bevor Sie diese Frage schließen. Außerdem wollte ich dem Moderator, der die andere Frage geschlossen hat, eine Nachricht senden Frage, um identische Fragen zu vermeiden, aber ich konnte keine Option dafür finden.

Behacad
quelle
2
Ich denke, das ist der vorherigen Frage sehr ähnlich. Wenn X und Y im Wesentlichen nicht korreliert sind, ist der Steigungskoeffizient für X in einer einfachen linearen Regression nicht signifikant. Immerhin ist die Steigungsschätzung proportional zur Probenkorrelation. Nuss-multiple Regression kann eine andere Geschichte sein, da X und Z zusammen einen großen Teil der Variabilität in Y erklären können. Da meine Antwort den Antworten auf die vorherige Frage ähnlich klingt, deutet dies möglicherweise auf eine deutliche Ähnlichkeit hin.
Michael R. Chernick
2
Vielen Dank für Ihre Antwort und sehr ausführliche Antwort im anderen Thread. Ich werde es einige Zeit lesen müssen, um die These davon zu bekommen. Mein anderes Anliegen ist vermutlich, wie man es eher praktisch als vielleicht statistisch oder mathematisch interpretiert. Nehmen wir zum Beispiel an, dass die Geschwindigkeit beim Schwimmen und die Angst vor Merkmalen nicht miteinander korrelieren, die Angst vor Merkmalen jedoch neben anderen Prädiktoren ein signifikanter Prädiktor für die Geschwindigkeit beim Schwimmen in einer multiplen Regression ist. Wie kann das praktisch Sinn machen? Nehmen wir an, Sie haben dies im Diskussionsteil eines klinischen Journals geschrieben!
Behacad
3
@jth Da Sie der Meinung sind, dass die beiden Fragen unterschiedlich genug sind, um nicht als Duplikate betrachtet zu werden, können Sie Ihre Antwort auch hierher verschieben. (Ich entschuldige mich dafür, dass ich den Unterschied ursprünglich nicht eingeschätzt habe.) Die neue Bemerkung ist meiner Meinung nach falsch, wenn man annimmt, dass die Fragen mathematisch unterschiedlich sind - @ Michael Chernick weist darauf hin, dass sie im Grunde genommen gleich sind -, aber die Betonung der Interpretation begründet dies um die Fäden getrennt zu halten.
Whuber
1
Ich habe auch die Antwort hierher verschoben. Ich denke, dass beide Fragen sehr unterschiedlich sind, aber einige gemeinsame Erklärungen haben.
JDav
1
Diese Webseite bietet eine weitere großartige Diskussion über verwandte Themen. Es ist lang, aber sehr gut und kann Ihnen helfen, die Probleme zu verstehen. Ich empfehle es komplett zu lesen.
gung - Reinstate Monica

Antworten:

39

Die Kausaltheorie bietet eine weitere Erklärung dafür, wie zwei Variablen bedingungslos unabhängig und dennoch bedingt abhängig sein können. Ich bin kein Experte auf dem Gebiet der Kausaltheorie und dankbar für jede Kritik, die etwaige Fehler korrigiert.

Zur Veranschaulichung verwende ich gerichtete azyklische Graphen (DAG). In diesen Diagrammen stehen Kanten ( ) zwischen Variablen für direkte Kausalzusammenhänge. Pfeilspitzen ( oder ) geben die Richtung der Kausalzusammenhänge an. Somit , dass direkt verursacht , und , dass direkt von verursacht wird . ist ein kausaler Pfad, der folgert, dass indirekt durchABABABABABCACB. Nehmen Sie der Einfachheit halber an, dass alle kausalen Beziehungen linear sind.

Betrachten Sie zunächst ein einfaches Beispiel für Confounder Bias :

Störer

Hier deutet eine einfache bivariable Regression auf eine Abhängigkeit zwischen und . Es besteht jedoch kein direkter kausaler Zusammenhang zwischen und . Stattdessen werden beide direkt durch verursacht , und bei der einfachen bivariablen Regression induziert die Beobachtung von Z eine Abhängigkeit zwischen X und Y , was zu einer Verzerrung durch Verwechslung führt. Eine multivariable Regressionskonditionierung von Z beseitigt jedoch die Verzerrung und legt keine Abhängigkeit zwischen X und Y nahe .XYXYZZXYZXY

Zweitens, ein Beispiel betrachten collider Vorspannung (auch als Berkson der Vorspannungs- oder Bias berksonian bekannt, von denen selection bias eine spezielle Art ist):

Collider

Hier deutet eine einfache bivariable Regression auf keine Abhängigkeit zwischen X und Y . Dies stimmt mit der DAG überein, die keinen direkten Kausalzusammenhang zwischen X und Y . Eine multivariable Regressionskonditionierung von Z induziert jedoch eine Abhängigkeit zwischen X und Y was darauf hindeutet, dass ein direkter Kausalzusammenhang zwischen den beiden Variablen bestehen kann, obwohl tatsächlich keiner existiert. Die Einbeziehung von Z in die multivariable Regression führt zu einer Kollidervorspannung.

Drittens betrachten wir ein Beispiel für eine zufällige Stornierung:

Stornierung

Nehmen wir an, dass α , β und γ sind und β=αγ . Eine einfache bivariable Regression legt keine Abhängigkeit zwischen X und Y . Obwohl X tatsächlich eine direkte Ursache für Y , hebt die Verwechslungswirkung von Z auf X und Y Übrigen die Wirkung von X auf Y . Eine multivariable Regressionskonditionierung auf Z beseitigt den störenden Effekt von Z auf X undY erlaubt die Abschätzung der direkten Auswirkung vonX aufY unter der Annahme, dass die DAG des Kausalmodells korrekt ist.

Zusammenfassen:

Confounder Beispiel: X und Y abhängig ist , in bivariable Regression und unabhängig in multivariable Regressionsanlage auf confounder Z .

Collider-Beispiel: X und Y sind in der bivariablen Regression unabhängig und in der multivariablen Regressionskonditionierung von Collider Z abhängig .

Beispiel für Inicdental-Auslöschung: X und Y sind in der bivariablen Regression unabhängig und in der multivariablen Regressionskonditionierung von Confounder Z abhängig .

Diskussion:

Die Ergebnisse Ihrer Analyse sind nicht mit dem Confounder-Beispiel kompatibel, aber sowohl mit dem Collider-Beispiel als auch mit dem Beispiel für die zufällige Löschung. Eine mögliche Erklärung ist daher, dass Sie in Ihrer multivariablen Regression eine Kollidervariable falsch konditioniert und eine Assoziation zwischen X und Y induziert haben , obwohl X keine Ursache für Y und Y keine Ursache für X . Alternativ haben Sie möglicherweise einen Confounder in Ihrer multivariablen Regression korrekt konditioniert, der im Übrigen die wahre Auswirkung von X auf Y in Ihrer bivariablen Regression aufhebt.

Ich empfinde die Verwendung von Hintergrundwissen zur Konstruktion von Kausalmodellen als hilfreich, wenn ich überlege, welche Variablen in statistische Modelle aufgenommen werden sollen. Wenn zum Beispiel frühere hochqualitative randomisierte Studien zu dem Schluss kommen, dass XZ verursacht und YZ verursacht , könnte ich stark davon ausgehen, dass Z ein Kollider von X und Y und in einem statistischen Modell keine Bedingung dafür ist. Wenn ich jedoch nur eine Intuition hätte, dass XZ verursacht , und YZ verursacht , aber keine soliden wissenschaftlichen Beweise, die meine Intuition stützen, könnte ich nur eine schwache Annahme treffen, dass Zist eine Kollision von X und Y , da die menschliche Intuition in der Vergangenheit irregeführt wurde. In der Folge wäre ich skeptisch, kausale Zusammenhänge zwischen X und Y abzuleiten, ohne ihre kausalen Zusammenhänge mit Z weiter zu untersuchen . Anstelle von oder zusätzlich zu Hintergrundwissen gibt es auch Algorithmen, die entworfen wurden, um Kausalmodelle aus den Daten unter Verwendung einer Reihe von Assoziationstests abzuleiten (z. B. PC-Algorithmus und FCI-Algorithmus, siehe TETRAD für Java-Implementierung, PCalgfür die R-Implementierung). Diese Algorithmen sind sehr interessant, aber ich würde nicht empfehlen, mich auf sie zu verlassen, ohne die Macht und Grenzen von Kausalrechnung und Kausalmodellen in der Kausaltheorie zu verstehen.

Fazit:

Die Betrachtung von Kausalmodellen entbindet den Prüfer nicht von den statistischen Überlegungen, die hier in anderen Antworten diskutiert werden. Ich bin jedoch der Meinung, dass Kausalmodelle dennoch einen hilfreichen Rahmen bieten können, wenn es darum geht, mögliche Erklärungen für die beobachtete statistische Abhängigkeit und Unabhängigkeit in statistischen Modellen zu finden, insbesondere bei der Visualisierung potenzieller Störfaktoren und Kollider.

Weitere Lektüre:

Gelman, Andrew. 2011. " Kausalität und statistisches Lernen ." Am. J. Sociology 117 (3) (November): 955–966.

Grönland, S, J Pearl und JM Robins. 1999. “ Kausaldiagramme für die epidemiologische Forschung .” Epidemiology (Cambridge, Mass.) 10 (1) (Januar): 37–48.

Grönland, Sander. 2003. “ Quantifizierung von Verzerrungen in Kausalmodellen: Klassisches Confounding vs. Collider-Stratification Bias .” Epidemiology 14 (3) (1. Mai): 300–306.

Perle, Judäa. 1998. Warum es keinen statistischen Test für Verwechslungen gibt, warum viele glauben, dass es solche gibt und warum sie fast richtig sind .

Perle, Judäa. 2009. Kausalität: Modelle, Argumentation und Folgerung . 2nd ed. Cambridge University Press.

Spirtes, Peter, Clark Glymour und Richard Scheines. 2001. Ursache, Vorhersage und Suche , Zweite Ausgabe. Ein Bradford-Buch.

Update: Judea Pearl diskutiert die Theorie der kausalen Inferenz und die Notwendigkeit, kausale Inferenz in einführende Statistikkurse in der November-Ausgabe 2012 der Amstat News zu integrieren . Von Interesse ist auch sein Turing Award Lecture mit dem Titel "Die Mechanisierung kausaler Folgerungen: Ein 'Mini'-Turing-Test und darüber hinaus".

jthetzel
quelle
Die kausalen Argumente sind zweifellos zutreffend, aber für Forscher, die diesem Ansatz zustimmen möchten, ist eine sehr gute Kenntnis der zugrunde liegenden Phänomene erforderlich. Ich frage mich, ob die Analyse, die @Behacad durchführt, nur explorativ ist.
JDav
1
@Behacad: Wie in meiner Antwort erwähnt, schlage ich vor, dass Sie die Single vergessen, da Ihr Problem multivariat und nicht bivariat ist. Um den Einfluss Ihrer interessierenden Variablen zu messen, müssen Sie nach anderen Variationsquellen suchen, die den gemessenen Einfluss von x verfälschen können. ρ
JDav
5
+1 Die Abbildungen und Erklärungen sind sehr klar und gut gemacht. Vielen Dank für die Mühe und Recherche, die (offensichtlich) in diese Antwort geflossen sind.
whuber
1
Könnte mir auch jemand ein praktisches Beispiel für "Drittens, betrachten Sie ein Beispiel für eine zufällige Stornierung?" Die Kausalitätsfrage kommt auf. Wenn X und Y nicht korreliert sind (dh Änderungen in X sind nicht mit Änderungen in Y verbunden), wie können wir diese "Ursache" betrachten. Genau das frage ich mich in einer anderen Frage! Stats.stackexchange.com/questions / 33638 /…
Behacad
4
Es ist erwähnenswert, dass es einige alternative Namen für diese gibt: Confounder -> Common Cause Model; Collider -> Common Effect Model; & Nebenkostenstornierung ist ein Sonderfall der Teilvermittlung.
gung - Reinstate Monica
22

Ich denke, @ jthetzels Ansatz ist der richtige (+1). Um diese Ergebnisse zu interpretieren, müssen Sie überlegen, warum sich die Beziehungen so manifestieren. Das heißt, Sie müssen über das Muster der Kausalzusammenhänge nachdenken, die Ihren Daten zugrunde liegen. Sie müssen erkennen, dass Ihre Ergebnisse, wie @jthetzel unterstreicht, mit mehreren unterschiedlichen Datenerzeugungsprozessen konsistent sind. Ich glaube nicht, dass Sie mit einer Menge zusätzlicher statistischer Tests für denselben Datensatz zwischen diesen Möglichkeiten unterscheiden können (obwohl weitere Experimente dies sicherlich könnten). Daher ist es wichtig, genau darüber nachzudenken, was über das Thema bekannt ist.

Ich möchte auf eine weitere mögliche zugrunde liegende Situation hinweisen, die zu Ergebnissen wie Ihrem führen könnte: Unterdrückung . Mit den Pfeildiagrammen ist dies schwieriger zu veranschaulichen, aber wenn ich sie etwas erweitern kann, können wir uns das so vorstellen:

Bildbeschreibung hier eingeben

Other VariableURSchalldämpferY.Andere VariableSchalldämpferY.SchalldämpferAndere Variable In dieser Situation (und daher müssen Sie sich erneut Gedanken darüber machen, wie das zugrunde liegende Muster auf Ihrer Kenntnis des Gebiets beruhen könnte).

SchalldämpferY.Andere VariableY.

set.seed(888)                            # for reproducibility

S  =         rnorm(60, mean=0, sd=1.0)   # the Suppressor is normally distributed
U  = 1.1*S + rnorm(60, mean=0, sd=0.1)   # U (unrelated) is Suppressor plus error
R  =         rnorm(60, mean=0, sd=1.0)   # related part; normally distributed
OV = U + R                               # the Other Variable is U plus R
Y  = R +     rnorm(60, mean=0, sd=2)     # Y is R plus error

cor.test(S, Y)                           # Suppressor uncorrelated w/ Y
# t = 0.0283, df = 58, p-value = 0.9775
# cor 0.003721616 

cor.test(S, OV)                          # Suppressor correlated w/ Other Variable
# t = 8.655, df = 58, p-value = 4.939e-12
# cor 0.7507423

cor.test(OV,Y)                           # Other Var not significantly cor w/ Y
# t = 1.954, df = 58, p-value = 0.05553
# cor 0.2485251

summary(lm(Y~OV+S))                      # both Suppressor & Other Var sig in mult reg
# Coefficients:
#              Estimate Std. Error t value Pr(>|t|)   
# (Intercept)   0.2752     0.2396   1.148  0.25557   
# OV            0.7232     0.2390   3.026  0.00372 **
# S            -0.7690     0.3415  -2.251  0.02823 * 

Mein Punkt hier ist nicht, dass diese Situation diejenige ist, die Ihren Daten zugrunde liegt. Ich weiß nicht, ob dies mehr oder weniger wahrscheinlich ist als die von @jthetzel vorgeschlagenen Optionen. Ich biete dies nur als Denkanstoß an. Um Ihre aktuellen Ergebnisse zu interpretieren, müssen Sie über diese Möglichkeiten nachdenken und entscheiden, was am sinnvollsten ist. Um Ihre Wahl zu bestätigen, müssen Sie sorgfältig experimentieren.

gung - Wiedereinsetzung von Monica
quelle
2
Ausgezeichnet! Vielen Dank. Dies ist ein weiteres gutes Beispiel dafür, was in meinen Daten geschehen könnte. Scheint, als ob ich nur eine Antwort akzeptieren kann ...
Behacad
Kein Problem, @Behacad, ich denke, jthetzel verdient das Häkchen; Ich helfe nur gerne.
gung - Wiedereinsetzung von Monica
7

Nur eine Visualisierung, dass es möglich ist.

In Bild (a) ist eine "normale" oder "intuitive" Regressionssituation dargestellt. Dieses Bild ist das gleiche, wie es zum Beispiel hier oder hier zu finden (und zu erklären) ist .

Y.Y.^b

b1b2X1X2

Bildbeschreibung hier eingeben

X1Y.Y.X1Y.X2

X1Y.X1

Daten und Analyse ungefähr entsprechend Bild (b):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 1.203146  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955  .100612  .858597
 .970097 2.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192  .587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.310708  .396034
1.462036  .057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -.898084 -.838295

Bildbeschreibung hier eingeben

Daten und Analyse ungefähr entsprechend Bild (c):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 -1.20315  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955 -.100612  .858597
 .970097 1.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192 -.587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.810708  .396034
1.462036 -.057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -1.26108 -.838295

Bildbeschreibung hier eingeben

X1Y.-.224X2.419.538

ttnphns
quelle
Vielen Dank! Es fühlt sich immer noch etwas kontraproduktiv an, aber zumindest deine Bilder zeigen, dass es machbar ist :)
JelenaČuklina
5

Ich bin mit der vorherigen Antwort einverstanden, hoffe aber, dass ich dazu beitragen kann, indem ich mehr Details gebe.

XY.xy

Y.=ein+βx+u

ρ^yx=β^σ^x/σ^y

Y.

Y.=ein+βx+jαjzj+u

βzjρρxy|zzj

JDav
quelle
ρρ