X und Y sind nicht korreliert (-.01); Wenn ich jedoch X in eine multiple Regression lege, die Y vorhersagt, sind neben drei (A, B, C) anderen (verwandten) Variablen auch X und zwei andere Variablen (A, B) signifikante Prädiktoren für Y. Beachten Sie, dass die beiden anderen ( A, B) Variablen sind außerhalb der Regression signifikant mit Y korreliert.
Wie soll ich diese Erkenntnisse interpretieren? X sagt eine eindeutige Varianz in Y voraus, aber da diese nicht korreliert sind (Pearson), ist es irgendwie schwierig zu interpretieren.
Ich kenne gegensätzliche Fälle (dh zwei Variablen sind korreliert, aber die Regression ist nicht signifikant) und diese sind aus theoretischer und statistischer Sicht relativ einfach zu verstehen. Beachten Sie, dass einige der Prädiktoren ziemlich korreliert sind (z. B. 0,70), jedoch nicht in dem Maße, wie ich eine erhebliche Multikollinearität erwarten würde. Vielleicht irre ich mich aber.
HINWEIS: Ich habe diese Frage zuvor gestellt und sie wurde geschlossen. Das Rationale war, dass diese Frage mit der Frage " Wie kann eine Regression signifikant sein, aber alle Prädiktoren sind nicht signifikant? " Überflüssig ist.". Vielleicht verstehe ich die andere Frage nicht, aber ich glaube, dass dies sowohl mathematisch als auch theoretisch völlig getrennte Fragen sind. Meine Frage ist völlig unabhängig davon, ob" eine Regression signifikant ist ". Außerdem sind mehrere Prädiktoren signifikant, während die andere Frage Da Variablen nicht signifikant sind, wird die Überlappung nicht angezeigt. Wenn diese Fragen aus Gründen, die ich nicht verstehe, überflüssig sind, fügen Sie bitte einen Kommentar ein, bevor Sie diese Frage schließen. Außerdem wollte ich dem Moderator, der die andere Frage geschlossen hat, eine Nachricht senden Frage, um identische Fragen zu vermeiden, aber ich konnte keine Option dafür finden.
Antworten:
Die Kausaltheorie bietet eine weitere Erklärung dafür, wie zwei Variablen bedingungslos unabhängig und dennoch bedingt abhängig sein können. Ich bin kein Experte auf dem Gebiet der Kausaltheorie und dankbar für jede Kritik, die etwaige Fehler korrigiert.
Zur Veranschaulichung verwende ich gerichtete azyklische Graphen (DAG). In diesen Diagrammen stehen Kanten ( ) zwischen Variablen für direkte Kausalzusammenhänge. Pfeilspitzen ( oder ) geben die Richtung der Kausalzusammenhänge an. Somit , dass direkt verursacht , und , dass direkt von verursacht wird . ist ein kausaler Pfad, der folgert, dass indirekt durch− ← → A→B A B A←B A B A→B→C A C B . Nehmen Sie der Einfachheit halber an, dass alle kausalen Beziehungen linear sind.
Betrachten Sie zunächst ein einfaches Beispiel für Confounder Bias :
Hier deutet eine einfache bivariable Regression auf eine Abhängigkeit zwischen und . Es besteht jedoch kein direkter kausaler Zusammenhang zwischen und . Stattdessen werden beide direkt durch verursacht , und bei der einfachen bivariablen Regression induziert die Beobachtung von Z eine Abhängigkeit zwischen X und Y , was zu einer Verzerrung durch Verwechslung führt. Eine multivariable Regressionskonditionierung von Z beseitigt jedoch die Verzerrung und legt keine Abhängigkeit zwischen X und Y nahe .X Y X Y Z Z X Y Z X Y
Zweitens, ein Beispiel betrachten collider Vorspannung (auch als Berkson der Vorspannungs- oder Bias berksonian bekannt, von denen selection bias eine spezielle Art ist):
Hier deutet eine einfache bivariable Regression auf keine Abhängigkeit zwischenX und Y . Dies stimmt mit der DAG überein, die keinen direkten Kausalzusammenhang zwischen X und Y . Eine multivariable Regressionskonditionierung von Z induziert jedoch eine Abhängigkeit zwischen X und Y was darauf hindeutet, dass ein direkter Kausalzusammenhang zwischen den beiden Variablen bestehen kann, obwohl tatsächlich keiner existiert. Die Einbeziehung von Z in die multivariable Regression führt zu einer Kollidervorspannung.
Drittens betrachten wir ein Beispiel für eine zufällige Stornierung:
Nehmen wir an, dassα , β und γ sind und β=−αγ . Eine einfache bivariable Regression legt keine Abhängigkeit zwischen X und Y . Obwohl X tatsächlich eine direkte Ursache für Y , hebt die Verwechslungswirkung von Z auf X und Y Übrigen die Wirkung von X auf Y . Eine multivariable Regressionskonditionierung auf Z beseitigt den störenden Effekt von Z auf X undY erlaubt die Abschätzung der direkten Auswirkung vonX aufY unter der Annahme, dass die DAG des Kausalmodells korrekt ist.
Zusammenfassen:
Confounder Beispiel:X und Y abhängig ist , in bivariable Regression und unabhängig in multivariable Regressionsanlage auf confounder Z .
Collider-Beispiel:X und Y sind in der bivariablen Regression unabhängig und in der multivariablen Regressionskonditionierung von Collider Z abhängig .
Beispiel für Inicdental-Auslöschung:X und Y sind in der bivariablen Regression unabhängig und in der multivariablen Regressionskonditionierung von Confounder Z abhängig .
Diskussion:
Die Ergebnisse Ihrer Analyse sind nicht mit dem Confounder-Beispiel kompatibel, aber sowohl mit dem Collider-Beispiel als auch mit dem Beispiel für die zufällige Löschung. Eine mögliche Erklärung ist daher, dass Sie in Ihrer multivariablen Regression eine Kollidervariable falsch konditioniert und eine Assoziation zwischenX und Y induziert haben , obwohl X keine Ursache für Y. und Y. keine Ursache für X . Alternativ haben Sie möglicherweise einen Confounder in Ihrer multivariablen Regression korrekt konditioniert, der im Übrigen die wahre Auswirkung von X auf Y. in Ihrer bivariablen Regression aufhebt.
Ich empfinde die Verwendung von Hintergrundwissen zur Konstruktion von Kausalmodellen als hilfreich, wenn ich überlege, welche Variablen in statistische Modelle aufgenommen werden sollen. Wenn zum Beispiel frühere hochqualitative randomisierte Studien zu dem Schluss kommen, dassX Z verursacht und Y. Z verursacht , könnte ich stark davon ausgehen, dass Z ein Kollider von X und Y. und in einem statistischen Modell keine Bedingung dafür ist. Wenn ich jedoch nur eine Intuition hätte, dass X Z verursacht , und Y. Z verursacht , aber keine soliden wissenschaftlichen Beweise, die meine Intuition stützen, könnte ich nur eine schwache Annahme treffen, dass Z ist eine Kollision von X und Y. , da die menschliche Intuition in der Vergangenheit irregeführt wurde. In der Folge wäre ich skeptisch, kausale Zusammenhänge zwischen X und Y. abzuleiten, ohne ihre kausalen Zusammenhänge mit Z weiter zu untersuchen . Anstelle von oder zusätzlich zu Hintergrundwissen gibt es auch Algorithmen, die entworfen wurden, um Kausalmodelle aus den Daten unter Verwendung einer Reihe von Assoziationstests abzuleiten (z. B. PC-Algorithmus und FCI-Algorithmus, siehe TETRAD für Java-Implementierung, PCalgfür die R-Implementierung). Diese Algorithmen sind sehr interessant, aber ich würde nicht empfehlen, mich auf sie zu verlassen, ohne die Macht und Grenzen von Kausalrechnung und Kausalmodellen in der Kausaltheorie zu verstehen.
Fazit:
Die Betrachtung von Kausalmodellen entbindet den Prüfer nicht von den statistischen Überlegungen, die hier in anderen Antworten diskutiert werden. Ich bin jedoch der Meinung, dass Kausalmodelle dennoch einen hilfreichen Rahmen bieten können, wenn es darum geht, mögliche Erklärungen für die beobachtete statistische Abhängigkeit und Unabhängigkeit in statistischen Modellen zu finden, insbesondere bei der Visualisierung potenzieller Störfaktoren und Kollider.
Weitere Lektüre:
Gelman, Andrew. 2011. " Kausalität und statistisches Lernen ." Am. J. Sociology 117 (3) (November): 955–966.
Grönland, S, J Pearl und JM Robins. 1999. “ Kausaldiagramme für die epidemiologische Forschung .” Epidemiology (Cambridge, Mass.) 10 (1) (Januar): 37–48.
Grönland, Sander. 2003. “ Quantifizierung von Verzerrungen in Kausalmodellen: Klassisches Confounding vs. Collider-Stratification Bias .” Epidemiology 14 (3) (1. Mai): 300–306.
Perle, Judäa. 1998. Warum es keinen statistischen Test für Verwechslungen gibt, warum viele glauben, dass es solche gibt und warum sie fast richtig sind .
Perle, Judäa. 2009. Kausalität: Modelle, Argumentation und Folgerung . 2nd ed. Cambridge University Press.
Spirtes, Peter, Clark Glymour und Richard Scheines. 2001. Ursache, Vorhersage und Suche , Zweite Ausgabe. Ein Bradford-Buch.
Update: Judea Pearl diskutiert die Theorie der kausalen Inferenz und die Notwendigkeit, kausale Inferenz in einführende Statistikkurse in der November-Ausgabe 2012 der Amstat News zu integrieren . Von Interesse ist auch sein Turing Award Lecture mit dem Titel "Die Mechanisierung kausaler Folgerungen: Ein 'Mini'-Turing-Test und darüber hinaus".
quelle
Ich denke, @ jthetzels Ansatz ist der richtige (+1). Um diese Ergebnisse zu interpretieren, müssen Sie überlegen, warum sich die Beziehungen so manifestieren. Das heißt, Sie müssen über das Muster der Kausalzusammenhänge nachdenken, die Ihren Daten zugrunde liegen. Sie müssen erkennen, dass Ihre Ergebnisse, wie @jthetzel unterstreicht, mit mehreren unterschiedlichen Datenerzeugungsprozessen konsistent sind. Ich glaube nicht, dass Sie mit einer Menge zusätzlicher statistischer Tests für denselben Datensatz zwischen diesen Möglichkeiten unterscheiden können (obwohl weitere Experimente dies sicherlich könnten). Daher ist es wichtig, genau darüber nachzudenken, was über das Thema bekannt ist.
Ich möchte auf eine weitere mögliche zugrunde liegende Situation hinweisen, die zu Ergebnissen wie Ihrem führen könnte: Unterdrückung . Mit den Pfeildiagrammen ist dies schwieriger zu veranschaulichen, aber wenn ich sie etwas erweitern kann, können wir uns das so vorstellen:
Mein Punkt hier ist nicht, dass diese Situation diejenige ist, die Ihren Daten zugrunde liegt. Ich weiß nicht, ob dies mehr oder weniger wahrscheinlich ist als die von @jthetzel vorgeschlagenen Optionen. Ich biete dies nur als Denkanstoß an. Um Ihre aktuellen Ergebnisse zu interpretieren, müssen Sie über diese Möglichkeiten nachdenken und entscheiden, was am sinnvollsten ist. Um Ihre Wahl zu bestätigen, müssen Sie sorgfältig experimentieren.
quelle
Nur eine Visualisierung, dass es möglich ist.
In Bild (a) ist eine "normale" oder "intuitive" Regressionssituation dargestellt. Dieses Bild ist das gleiche, wie es zum Beispiel hier oder hier zu finden (und zu erklären) ist .
Daten und Analyse ungefähr entsprechend Bild (b):
Daten und Analyse ungefähr entsprechend Bild (c):
quelle
Ich bin mit der vorherigen Antwort einverstanden, hoffe aber, dass ich dazu beitragen kann, indem ich mehr Details gebe.
quelle