Was ist die mathematische Definition eines Kausalzusammenhangs zwischen zwei Zufallsvariablen?
Wann würde man bei einer Stichprobe aus der gemeinsamen Verteilung zweier Zufallsvariablen und sagen, dass verursacht ?
Zum Kontext lese ich dieses Papier über die kausale Entdeckung .
Antworten:
Mathematisch gesehen besteht ein Kausalmodell aus funktionalen Beziehungen zwischen Variablen. Betrachten Sie beispielsweise das folgende Strukturgleichungssystem:
Dies bedeutet, dass den Wert von funktional bestimmt (wenn Sie auf eingreifen, ändert dies die Werte von ), aber nicht umgekehrt. Grafisch wird dies normalerweise durch , was bedeutet, dass in die Strukturgleichung von y eingeht. Als Ergänzung können Sie auch ein Kausalmodell in Form von gemeinsamen Verteilungen kontrafaktischer Variablen ausdrücken, das mathematisch den Funktionsmodellen entspricht .x y x y x→y x
Manchmal (oder meistens) haben Sie keine Kenntnis über die Form der Strukturgleichungen ,fx fy und auch nicht darüber, ob oder . Die einzige Information, die Sie haben, ist die gemeinsame Wahrscheinlichkeitsverteilung (oder Stichproben aus dieser Verteilung).x→y y→x p(y,x)
Dies führt zu Ihrer Frage: Wann kann ich die Richtung der Kausalität nur aus den Daten wiederherstellen? Oder genauer gesagt, wann kann ich aus den Daten herausfinden, ob in die Strukturgleichung von eingeht oder umgekehrt?x y
Ohne grundsätzlich nicht überprüfbare Annahmen über das Kausalmodell ist dies natürlich unmöglich . Das Problem ist, dass mehrere unterschiedliche Kausalmodelle die gleiche gemeinsame Wahrscheinlichkeitsverteilung der beobachteten Variablen zur Folge haben können. Das häufigste Beispiel ist ein kausales lineares System mit Gaußschem Rauschen.
Aber unter bestimmten kausalen Voraussetzungen könnte dies möglich sein - und daran arbeitet die Literatur über kausale Entdeckungen. Wenn Sie mit diesem Thema noch nicht vertraut sind , sollten Sie mit Elements of Causal Inference von Peters, Janzing und Scholkopf sowie mit Kapitel 2 aus Causality von Judea Pearl beginnen. Wir haben hier im Lebenslauf ein Thema für Verweise auf kausale Entdeckungen , aber wir haben dort noch nicht so viele Verweise aufgelistet.
Daher gibt es nicht nur eine Antwort auf Ihre Frage, da diese von den getroffenen Annahmen abhängt. In dem von Ihnen erwähnten Artikel werden einige Beispiele angeführt, beispielsweise die Annahme eines linearen Modells mit nicht-gaußschem Rauschen. Dieser Fall ist als LINGAN (kurz für lineares nicht-gaußsches azyklisches Modell) bekannt. Hier ein Beispiel in
R
:Beachten Sie, dass wir hier ein lineares Kausalmodell mit nicht-gaußschem Rauschen haben, bei dem verursacht und Lingam die Kausalrichtung korrekt wiederherstellt. Beachten Sie jedoch, dass dies entscheidend von den LINGAM-Annahmen abhängt.x2 x1
Für den Fall des von Ihnen zitierten Papiers gehen sie von dieser speziellen Annahme aus (siehe ihr "Postulat"):
Wenn , ist die minimale Beschreibungslänge des Mechanismus, der X auf Y abbildet, unabhängig vom Wert von X, wohingegen die minimale Beschreibungslänge des Mechanismus, der Y auf X abbildet, vom Wert von Y abhängt.x→y
Beachten Sie, dass dies eine Annahme ist. Dies ist, was wir ihre "Identifikationsbedingung" nennen würden. Im Wesentlichen legt das Postulat Einschränkungen für die gemeinsame Verteilung . Das heißt, das Postulat besagt, dass, wenn bestimmte Beschränkungen in den Daten gelten, und wenn andere Beschränkungen gelten. Diese Art von Einschränkungen, die überprüfbare Auswirkungen haben ( Einschränkungen auferlegen ), ermöglicht die gerichtete Wiederherstellung von Beobachtungsdaten.p(x,y) x→y y→x p(y,x)
Abschließend sei angemerkt, dass die Ergebnisse der kausalen Entdeckung immer noch sehr begrenzt sind und von starken Annahmen abhängen. Seien Sie vorsichtig, wenn Sie diese im Kontext der realen Welt anwenden.
quelle
lm
). Wir können nicht alle die Beobachtungsproben der Tübinger Datensätze umgehen, um eine Vorstellung von der kausalen Entdeckung zu bekommen! :)Es gibt eine Vielzahl von Ansätzen zur Formalisierung der Kausalität (was im Einklang mit der seit Jahrhunderten bestehenden erheblichen philosophischen Uneinigkeit über die Kausalität steht). Ein beliebter ist in Bezug auf mögliche Ergebnisse. Der Ansatz der potenziellen Ergebnisse, Rubin-Kausalmodell genannt , geht davon aus, dass es für jeden Kausalzustand eine andere Zufallsvariable gibt. So könnte der Zufallsvariable der möglichen Ergebnisse aus einer klinischen Studie, wenn ein Gegenstand die Studie Droge nimmt, und könnte der Zufallsvariable, wenn er das Placebo nimmt. Der kausale Effekt ist der Unterschied zwischen und . Wenn in der TatY1 Y2 Y1 Y2 Y1=Y2 Wir könnten sagen, dass die Behandlung keine Wirkung hat. Ansonsten könnte man sagen, dass der Behandlungszustand das Ergebnis verursacht.
Kausale Beziehungen zwischen Variablen können auch mit direktionalen acylischen Graphen dargestellt werden , die einen sehr unterschiedlichen Geschmack haben, sich jedoch als mathematisch äquivalent zum Rubin-Modell herausstellen (Wasserman, 2004, Abschnitt 17.8).
Wasserman, L. (2004). Alle Statistiken: Ein prägnanter Kurs zur statistischen Inferenz . New York, NY: Springer. ISBN 978-0-387-40272-7.
quelle
Es gibt zwei Möglichkeiten, um festzustellen, ob die Ursache für . Das erste ist Standard, während das zweite mein eigener Anspruch ist.X Y
Ein Eingriff ist eine chirurgische Änderung einer Variablen, die sich nicht auf die Variablen auswirkt, von denen sie abhängt. Eingriffe in strukturelle Gleichungen und kausale grafische Modelle wurden streng formalisiert, aber meines Wissens gibt es keine Definition, die von einer bestimmten Modellklasse unabhängig ist.
Um dies konsequent umzusetzen, muss ein Modell über und formalisiert werden , insbesondere die Semantik, die definiert, wie es simuliert wird.X Y
In modernen Herangehensweisen an die Kausalität wird die Intervention als das primitive Objekt angesehen, das die Kausalzusammenhänge definiert (Definition 1). Meiner Meinung nach spiegelt die Intervention jedoch die Simulationsdynamik wider und entspricht ihr notwendigerweise.
quelle