Mir fällt mindestens ein naives Beispiel ein. Angenommen, ich möchte die Beziehung zwischen X und Z untersuchen. Ich vermute auch, dass Y Z beeinflusst, also steuere ich für Y. Wie sich jedoch herausstellt, verursacht X ohne mein Wissen Y und Y verursacht Z. Daher durch Steuern für Y "vertusche" ich die Beziehung zwischen X und Z, da X unabhängig von Z ist, wenn Y gegeben ist.
Nun, im vorherigen Beispiel könnte es der Fall sein, dass die Beziehungen, die ich untersuchen sollte, diejenigen zwischen X und Y und Y und Z sind. Wenn ich jedoch solche Dinge a priori wüsste, würde ich keine Wissenschaft betreiben den ersten Platz. Die Studie, die ich jetzt gemacht habe, legt nahe, dass es keine Beziehung zwischen X und Z gibt, was nicht der Fall ist. X und Z sind verwandt.
Dies ist im folgenden Abhängigkeitsdiagramm dargestellt. Im richtigen Szenario hängt Z von X und Y ab und X und Y sind unabhängig. Wir steuern zu Recht für Y, um die Beziehung zwischen X und Z zu bestimmen. Im linken Szenario hängt Z von Y ab, was von X abhängt. X und Z sind unabhängig, wenn Y gegeben ist, so dass die Beziehung zwischen X und Z durch Steuern von "vertuscht" wird Y.
Meine Frage lautet im Grunde: "Wann ist es angebracht, für die Variable Y zu steuern, und wann nicht?" ... Es mag schwierig oder unmöglich sein, die Beziehung zwischen X und Y vollständig zu untersuchen, aber zum Beispiel ist es schwierig, Y auf einer bestimmten Ebene zu steuern eine Option. Wie entscheiden wir uns, bevor wir unsere Studie durchführen, und was sind die häufigsten Gefahren, zu viel oder zu wenig zu kontrollieren?
Zitate geschätzt.
Antworten:
Das Konditionieren (dh Anpassen) der Wahrscheinlichkeiten eines Ergebnisses, wenn ein Prädiktor für dritte Variablen gegeben ist, ist weit verbreitet, aber wie Sie zu Recht betonen, kann die resultierende Schätzung tatsächlich eine Verzerrung als Repräsentation der kausalen Effekte enthalten . Dies kann sogar bei "klassischen" Definitionen eines potenziellen kausalen Confounders der Fall sein, da sowohl der Confounder selbst als auch der interessierende Prädiktor möglicherweise jeweils weitere kausale Confounder vorgelagert haben. In der nachstehenden DAG ist beispielsweise ein klassischer Störfaktor für die kausale Wirkung von auf , da (1) es verursacht und daher mit assoziiert ist und (2) assoziiert ist, da es mit assoziiert istE D E D U 2 D P ( D | E ) L E D L D U 2 L E U 1L E D E D U2 das . Eine Konditionierung oder Schichtung von auf (ein "Kollider") führt jedoch zu verzerrten kausalen Schätzungen der Wirkung von auf da durch die nicht gemessene Variable mit verwechselt wird und ist verwechselt mit durch die nicht gemessene Variable .D P(D|E) L E D L D U2 L E U1
Verstehen , welche Variablen Zustand oder stratify eine Analyse auf eine unvoreingenommene kausale Schätzung sorgfältige Abwägung des möglichen DAGs erfordert bereitzustellen , um die Kriterien für die kausale Wirkung Identifizierbarkeit-ohne häufige Ursachen verwenden , die von Backdoor nicht blockiert sind Pfade beschriebenen von Pearl, Robins und anderen . Es gibt keine Abkürzungen. Lernen Sie gängige Störmuster. Lernen Sie gängige Auswahlverzerrungsmuster. Trainieren.
Verweise
Greenland, S., Pearl, J. und Robins, JM (1999). Kausaldiagramme für die epidemiologische Forschung . Epidemiology , 10 (1): 37–48.
Hernán, MA und Robins, JM (2018). Kausale Folgerung . Chapman & Hall / CRC, Boca Raton, FL
Maldonado, G. und Greenland, S. (2002). Abschätzung der kausalen Auswirkungen . International Journal of Epidemiology , 31 (2): 422–438.
Pearl, J. (2000). Kausalität: Modelle, Argumentation und Folgerung . Cambridge University Press.
quelle
Ich glaube, die schnelle ein-Satz-Antwort auf Ihre Frage,
ist das "Hintertürkriterium".
Das strukturelle Kausalmodell von Judea Pearl kann Ihnen eindeutig sagen, welche Variablen für die Konditionierung ausreichen (und wann dies erforderlich ist), um auf die kausale Auswirkung einer Variablen auf eine andere zu schließen. Dies wird nämlich unter Verwendung des Hintertürkriteriums beantwortet, das auf Seite 19 dieses Übersichtsartikels von Pearl beschrieben ist.
Die größte Einschränkung besteht darin, dass Sie den Kausalzusammenhang zwischen den Variablen kennen müssen (in Form von Richtungspfeilen in einem Diagramm). Daran führt kein Weg vorbei. Hier kann die Schwierigkeit und mögliche Subjektivität ins Spiel kommen. Das strukturelle Kausalmodell von Pearl gibt Ihnen nur die Möglichkeit, die richtigen Fragen zu beantworten, wenn ein Kausalmodell (dh ein gerichteter Graph) vorliegt, welche Kausalmodelle bei einer Datenverteilung möglich sind, oder die Kausalstruktur durch Ausführen des richtigen Experiments zu ermitteln. Es sagt Ihnen nicht, wie Sie die richtige Kausalstruktur finden, wenn Sie nur die Datenverteilung berücksichtigen. Tatsächlich wird behauptet, dass dies unmöglich ist, ohne externes Wissen / Intuition über die Bedeutung der Variablen zu verwenden.
Die Kriterien für die Hintertür können wie folgt angegeben werden:
Um die kausale Auswirkung von auf ist es ausreichend eine Menge variabler Knoten zu konditionieren, sofern beide der folgenden Kriterien erfüllt sind:Y , SX Y, S
1) Keine Elemente in vonXS X
2) blockiert alle "Hintertür" -Pfade zwischen undX YS X Y
Hier ist ein "Hintertür" -Pfad einfach ein Pfad von Pfeilen, die bei beginnen und mit einem Pfeil enden, der auf (Die Richtung, in die alle anderen Pfeile zeigen, ist nicht wichtig.) Und "Blockieren" ist selbst a Kriterium mit einer bestimmten Bedeutung, die auf Seite 11 des obigen Links angegeben ist. Dies ist das gleiche Kriterium, das Sie beim Erlernen von "D-Separation" lesen würden. Ich persönlich fand, dass Kapitel 8 von Bishops Mustererkennung und maschinellem Lernen das Konzept des Blockierens bei der D-Trennung viel besser beschreibt als die Pearl-Quelle, die ich oben verlinkt habe. Aber es geht so:X .Y X.
Eine Menge von Knoten blockiert einen Pfad zwischen und wenn mindestens eines der folgenden Kriterien erfüllt ist:X, YS, X Y
1) Einer der Knoten im Pfad, also auch in sendet mindestens einen Pfeil auf dem Pfad aus (dh der Pfeil zeigt vom Knoten weg)S,
2) Ein Knoten, der weder in noch ein Vorfahr eines Knotens in weist zwei Pfeile auf dem Pfad auf, der darauf "kollidiert" (dh ihn von Kopf zu Kopf trifft).SS S
Dies ist ein oder- Kriterium, im Gegensatz zu dem allgemeinen Hintertür-Kriterium, das ein und- Kriterium ist.
Um das Back-Door-Kriterium zu verdeutlichen, heißt es, dass Sie für ein bestimmtes Kausalmodell, wenn Sie auf eine ausreichende Variable konditionieren, den Kausaleffekt aus der Wahrscheinlichkeitsverteilung der Daten lernen können. (Wie wir wissen, reicht die gemeinsame Verteilung allein nicht aus, um kausales Verhalten zu finden, da mehrere kausale Strukturen für dieselbe Verteilung verantwortlich sein können. Aus diesem Grund ist auch das Kausalmodell erforderlich.) Die Verteilung kann unter Verwendung gewöhnlicher statistischer / Methoden des maschinellen Lernens anhand der Beobachtungsdaten. Also, solange du weißt Da die Kausalstruktur die Konditionierung auf eine Variable (oder eine Reihe von Variablen) zulässt, ist Ihre Schätzung der Kausalität einer Variablen auf eine andere so gut wie Ihre Schätzung der Verteilung der Daten, die Sie mit statistischen Methoden erhalten.
Folgendes finden wir, wenn wir das Hintertürkriterium auf Ihre beiden Diagramme anwenden:
In keinem Fall hat es eine Hintertür Weg von existieren bis So ist es das stimmt Blöcke „alle“ Hintertür Wege, weil es keine gibt. Im linken Diagramm ist jedoch ein direkter Nachkomme von im rechten Diagramm nicht. Daher folgt dem Hintertürkriterium in der rechten Abbildung, nicht jedoch der linken. Dies sind keine überraschenden Ergebnisse.X . Y Y X , YZ X. Y Y X, Y
Was jedoch überrascht, ist, dass Sie im rechten Diagramm, solange es sich um das vollständige Bild handelt, keine Bedingung für benötigen , um den vollständigen kausalen Einfluss von auf . (Anders ausgedrückt, die Nullmenge erfüllt die Kriterien für die Hintertür und ist daher für die Konditionierung ausreichend.) Intuitiv ist dies der Fall, da der Wert von nicht mit dem von verknüpft ist, sodass Sie für ausreichende Daten einfach einen Durchschnitt über den Wert bilden können Werte von um die Wirkung von auf zu marginalisieren Ein Einwand gegen diesen Punkt kann sein, dass die Daten begrenzt sind, so dass Sie keine repräsentative Verteilung vonY X Z X Y Y Y Z. Y Werte. Denken Sie jedoch daran, dass das Back-Door-Kriterium davon ausgeht, dass Sie die Wahrscheinlichkeitsverteilung der Daten haben. In diesem Fall können Sie analytisch marginalisieren. Die Marginalisierung über einen endlichen Datensatz ist nur eine Schätzung. Beachten Sie auch, dass es sehr unwahrscheinlich ist, dass dies das vollständige Bild ist. Es gibt wahrscheinlich externe Faktoren, die sich auf auswirken. Wenn diese Faktoren auch in irgendeiner Weise mit , muss mehr Arbeit geleistet werden, um festzustellen, ob konditioniert werden muss oder ob es überhaupt ausreicht. Wenn Sie einen anderen Pfeil , darauf hinzuweisen ziehen zu dann wird zur Kontrolle notwendig.Y. X. Y Y Y X Y
Dies sind natürlich sehr einfache Beispiele, bei denen die Intuition ausreicht, um zu wissen, wann kontrolliert werden kann oder nicht. Aber hier sind noch ein paar Beispiele, bei denen es anhand des Diagramms nicht offensichtlich ist, und Sie können die Kriterien für die Hintertür verwenden. Für das folgende Diagramm fragen wir, ob es ausreichend ist, für zu kontrollieren, wenn der kausale Einfluss von aufY Y X Z.
Das erste, was zu beachten ist, ist, dass in beiden Fällen kein Nachkomme von Also erfüllt es dieses Kriterium. Als nächstes ist zu beachten, dass es in beiden Fällen mehrere Backdoor-Pfade von nach Zwei im linken Diagramm und drei im rechten.Y X. Z X.
Im linken Diagramm sind die Backdoor-Pfade und blockiert den ersten Pfad, da es sich um einen Knoten handelt direkt im weg. auch blockiert den zweiten Weg , weil es weder noch ist es ein Nachkomme von die die einzige ist arrow kollidierende Knoten in dem Pfad. Daher ist eine ausreichende Menge zum Konditionieren. (Beachten Sie, dass im Gegensatz zu Ihrem rechten Diagramm die Nullmenge nicht zur Konditionierung ausreicht, da sie den Pfad nicht blockiert .)Z←Y→X Z←W→B←A→X. Y Y B, B, Y Z←Y→X
In dem rechten Diagramm sind die Hintertür Pfade die gleichen zwei wie in der linken Seite, und der Pfad macht diesen Weg blockiert, weil es ein Pfeil Emittieren Knoten im Pfad. Aus demselben Grund wie im linken Diagramm wird auch der Pfad blockiert . Es blockiert jedoch nicht den Pfad da es ein direkter Nachkomme des Kollidiererknotens Daher ist es für die Konditionierung nicht ausreichend.Z←W→B→Y→X. Z ← Y → X Z ← W → B ← A → X , B .Y Z←Y→X Z←W→B←A→X, B.
Es ist ziemlich unintuitive zu sehen , warum für Anlage auf der linken Diagramm ausreichend ist, weil die exogenen Variablen und , die beeinflussen und sind. Nehmen wir jedoch an, es gäbe kein In diesem Fall bestünde aufgrund dieser exogenen Variablen keine falsche Beziehung zwischen und , sodass sie nicht von Belang sind. Die Existenz von jedoch in Frage. Wenn einen beliebigen Wert annehmen darf, nimmt es natürlich undA W X Z B . X Z B , B A W B A W X ZY A W X Z B. X Z B, B A W Es wäre kein Problem, da es keinen Einfluss auf die wichtigen Variablen oder die exogenen Variablen hat, die sie bestimmen. Wenn jedoch (oder einer seiner Nachkommen) kontrolliert wird, dann macht es und tatsächlich abhängig, was die falsche Beziehung zwischen und , die wir nicht wollen. Wie in der verknüpften Quelle erwähnt, ist dies ein Beispiel für Berksons Paradoxon, bei dem eine Beobachtung einer Variablen, die von zwei unabhängigen Quellen verursacht wird, diese Quellen abhängig macht (z. B. wird das Ergebnis zweier unabhängiger Münzwürfe von der Beobachtung der Gesamtzahl abhängig gemacht Köpfe gedreht).B A W X Z
Wie ich bereits erwähnt habe, setzt die Verwendung des Back-Door-Kriteriums voraus, dass Sie das Kausalmodell kennen (dh das "richtige" Diagramm der Pfeile zwischen den Variablen). Aber das strukturelle Kausalmodell bietet meiner Meinung nach auch die beste und formalste Möglichkeit, nach einem solchen Modell zu suchen oder zu wissen, wann die Suche erfolglos ist. Es hat auch den wunderbaren Nebeneffekt, dass Begriffe wie "Verwechseln", "Vermitteln" und "Falsch" (die mich alle verwirren) obsolet werden. Zeigen Sie mir einfach das Bild und ich sage Ihnen, welche Kreise kontrolliert werden sollen.
quelle
Das Folgende könnte für Ihren Fall angemessen sein oder auch nicht: Wenn
X
es sich um eine Behandlung handelt, können Sie Ihr Problem möglicherweise umgehen, indem Sie einen Neigungs-Score-Matching verwenden, bei dem Sie die VariableY
beim Matching weiterhin beibehalten würden. Mit anderen Worten, Sie gleichen die Kovariaten aus (Y
eine dieser Kovariaten), die den Erhalt der Behandlung vorhersagenX
.Beachten Sie, dass oben kein Verweis auf die Ergebnisvariable vorhanden ist
Z
. Sie können auch überprüfen, wie ausgewogen Ihre Beobachtungen sind (indem Sie eine Vorher- und Nachher-Ausgleichstabelle erstellen),X
anhand derer Sie möglicherweise einen Einblick erhalten, wie viel von bestimmt wirdY
.quelle