Wie ist die Kausalität mathematisch definiert?

Was ist die mathematische Definition eines Kausalzusammenhangs zwischen zwei Zufallsvariablen?

Wann würde man bei einer Stichprobe aus der gemeinsamen Verteilung zweier Zufallsvariablen und sagen, dass verursacht ? $X$ $Y$ $X$ $Y$

Zum Kontext lese ich dieses Papier über die kausale Entdeckung .

machine-learning causality Jane
quelle

Kausalität ist meines Erachtens ein wissenschaftlicher und kein mathematischer Begriff. Kannst du das zur Klärung bearbeiten?

Mdewey

@mdewey Ich stimme nicht zu. Kausalität kann rein formal ausgezahlt werden. Siehe zB meine Antwort.

Kodiologist

Antworten:

Was ist die mathematische Definition eines Kausalzusammenhangs zwischen zwei Zufallsvariablen?

Mathematisch gesehen besteht ein Kausalmodell aus funktionalen Beziehungen zwischen Variablen. Betrachten Sie beispielsweise das folgende Strukturgleichungssystem:

x = f_{x} (ϵ_{x}) y = f_{y} (x, ϵ_{y})

$x = f_x(\epsilon_{x})\\ y = f_y(x, \epsilon_{y})$

Dies bedeutet, dass den Wert von funktional bestimmt (wenn Sie auf eingreifen, ändert dies die Werte von ), aber nicht umgekehrt. Grafisch wird dies normalerweise durch , was bedeutet, dass in die Strukturgleichung von y eingeht. Als Ergänzung können Sie auch ein Kausalmodell in Form von gemeinsamen Verteilungen kontrafaktischer Variablen ausdrücken, das mathematisch den Funktionsmodellen entspricht . $x$ $y$ $x$ $y$ $x \rightarrow y$ $x$

Wann würde man bei einer Stichprobe aus der gemeinsamen Verteilung zweier Zufallsvariablen X und Y sagen, dass X Y verursacht?

Manchmal (oder meistens) haben Sie keine Kenntnis über die Form der Strukturgleichungen , $f_{x}$ $f_y$ und auch nicht darüber, ob oder . Die einzige Information, die Sie haben, ist die gemeinsame Wahrscheinlichkeitsverteilung (oder Stichproben aus dieser Verteilung). $x\rightarrow y$ $y \rightarrow x$ $p(y,x)$

Dies führt zu Ihrer Frage: Wann kann ich die Richtung der Kausalität nur aus den Daten wiederherstellen? Oder genauer gesagt, wann kann ich aus den Daten herausfinden, ob in die Strukturgleichung von eingeht oder umgekehrt? $x$ $y$

Ohne grundsätzlich nicht überprüfbare Annahmen über das Kausalmodell ist dies natürlich unmöglich . Das Problem ist, dass mehrere unterschiedliche Kausalmodelle die gleiche gemeinsame Wahrscheinlichkeitsverteilung der beobachteten Variablen zur Folge haben können. Das häufigste Beispiel ist ein kausales lineares System mit Gaußschem Rauschen.

Aber unter bestimmten kausalen Voraussetzungen könnte dies möglich sein - und daran arbeitet die Literatur über kausale Entdeckungen. Wenn Sie mit diesem Thema noch nicht vertraut sind , sollten Sie mit Elements of Causal Inference von Peters, Janzing und Scholkopf sowie mit Kapitel 2 aus Causality von Judea Pearl beginnen. Wir haben hier im Lebenslauf ein Thema für Verweise auf kausale Entdeckungen , aber wir haben dort noch nicht so viele Verweise aufgelistet.

Daher gibt es nicht nur eine Antwort auf Ihre Frage, da diese von den getroffenen Annahmen abhängt. In dem von Ihnen erwähnten Artikel werden einige Beispiele angeführt, beispielsweise die Annahme eines linearen Modells mit nicht-gaußschem Rauschen. Dieser Fall ist als LINGAN (kurz für lineares nicht-gaußsches azyklisches Modell) bekannt. Hier ein Beispiel in R:

library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1

# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat") 

# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
#     [,1]  [,2]
# [1,] .     .   
# [2,]  TRUE .

Beachten Sie, dass wir hier ein lineares Kausalmodell mit nicht-gaußschem Rauschen haben, bei dem verursacht und Lingam die Kausalrichtung korrekt wiederherstellt. Beachten Sie jedoch, dass dies entscheidend von den LINGAM-Annahmen abhängt. $x_2$ $x_1$

Für den Fall des von Ihnen zitierten Papiers gehen sie von dieser speziellen Annahme aus (siehe ihr "Postulat"):

Wenn , ist die minimale Beschreibungslänge des Mechanismus, der X auf Y abbildet, unabhängig vom Wert von X, wohingegen die minimale Beschreibungslänge des Mechanismus, der Y auf X abbildet, vom Wert von Y abhängt. $x\rightarrow y$

Beachten Sie, dass dies eine Annahme ist. Dies ist, was wir ihre "Identifikationsbedingung" nennen würden. Im Wesentlichen legt das Postulat Einschränkungen für die gemeinsame Verteilung . Das heißt, das Postulat besagt, dass, wenn bestimmte Beschränkungen in den Daten gelten, und wenn andere Beschränkungen gelten. Diese Art von Einschränkungen, die überprüfbare Auswirkungen haben ( Einschränkungen auferlegen ), ermöglicht die gerichtete Wiederherstellung von Beobachtungsdaten. $p(x,y)$ $x \rightarrow y$ $y \rightarrow x$ $p(y,x)$

Abschließend sei angemerkt, dass die Ergebnisse der kausalen Entdeckung immer noch sehr begrenzt sind und von starken Annahmen abhängen. Seien Sie vorsichtig, wenn Sie diese im Kontext der realen Welt anwenden.

Carlos Cinelli
quelle

Gibt es eine Chance, dass Sie Ihre Antwort erweitern, um bitte einige einfache Beispiele mit gefälschten Daten aufzunehmen ? Zum Beispiel wird häufig ein Regressionsrahmen verwendet, um das Bedürfnis zu motivieren, das Problem im Detail zu verstehen, nachdem ich einige Elemente der kausalen Folgerung gelesen und einige von Peters 'Vorlesungen angesehen habe (ich rühre nicht einmal ihre ICP-Arbeit an). Ich habe den (vielleicht falschen) Eindruck, dass Ihre Antworten in Ihrem Bestreben, sich vom RCM zu entfernen, alle konkreten Modellierungsmaschinen auslassen.

usεr11852 sagt Reinstate Monic

@ usεr11852 Ich bin mir nicht sicher, ob ich den Kontext Ihrer Fragen verstehe. Möchten Sie Beispiele für kausale Entdeckungen? Es gibt mehrere Beispiele in dem Artikel, den Jane zur Verfügung gestellt hat. Ich bin mir auch nicht sicher, ob ich verstehe, was Sie unter "Vermeiden von RCM und Weglassen von konkreten Modellierungsmaschinen" verstehen. Welche konkreten Maschinen fehlen hier im Kontext der kausalen Entdeckung?

Carlos Cinelli

Entschuldigung für die Verwirrung, ich interessiere mich nicht für Beispiele aus Zeitungen. Ich kann andere Papiere selbst zitieren. (Zum Beispiel Lopez-Paz et al. CVPR 2017 über ihren neuronalen Kausalkoeffizienten) Was mich interessiert, ist ein einfaches numerisches Beispiel mit gefälschten Daten , die jemand in R (oder Ihrer Lieblingssprache) ausführen und sehen, was Sie meinen. Wenn Sie zum Beispiel Peters et al. Buch und sie haben kleine Code-Schnipsel, die sehr hilfreich sind (und gelegentlich nur verwenden lm). Wir können nicht alle die Beobachtungsproben der Tübinger Datensätze umgehen, um eine Vorstellung von der kausalen Entdeckung zu bekommen! :)

usεr11852 sagt Reinstate Monic

@ usεr11852 Sicher, ein falsches Beispiel ist trivial. Ich kann ein Beispiel mit Lingam in R aufnehmen. Aber möchten Sie erklären, was Sie damit gemeint haben, "RCM zu vermeiden und konkrete Modellierungsmaschinen auszulassen"?

Carlos Cinelli

@ usεr11852 ok danke für das feedback, ich werde versuchen mehr code einzubinden wenn es angebracht ist. Abschließend sei angemerkt, dass die Ergebnisse der kausalen Entdeckung immer noch sehr begrenzt sind. Daher müssen die Menschen sehr vorsichtig sein, wenn sie diese je nach Kontext anwenden.

Carlos Cinelli

Es gibt eine Vielzahl von Ansätzen zur Formalisierung der Kausalität (was im Einklang mit der seit Jahrhunderten bestehenden erheblichen philosophischen Uneinigkeit über die Kausalität steht). Ein beliebter ist in Bezug auf mögliche Ergebnisse. Der Ansatz der potenziellen Ergebnisse, Rubin-Kausalmodell genannt , geht davon aus, dass es für jeden Kausalzustand eine andere Zufallsvariable gibt. So könnte der Zufallsvariable der möglichen Ergebnisse aus einer klinischen Studie, wenn ein Gegenstand die Studie Droge nimmt, und könnte der Zufallsvariable, wenn er das Placebo nimmt. Der kausale Effekt ist der Unterschied zwischen und . Wenn in der Tat $Y_1$ $Y_2$ $Y_1$ $Y_2$ $Y_1 = Y_2$ Wir könnten sagen, dass die Behandlung keine Wirkung hat. Ansonsten könnte man sagen, dass der Behandlungszustand das Ergebnis verursacht.

Kausale Beziehungen zwischen Variablen können auch mit direktionalen acylischen Graphen dargestellt werden , die einen sehr unterschiedlichen Geschmack haben, sich jedoch als mathematisch äquivalent zum Rubin-Modell herausstellen (Wasserman, 2004, Abschnitt 17.8).

Wasserman, L. (2004). Alle Statistiken: Ein prägnanter Kurs zur statistischen Inferenz . New York, NY: Springer. ISBN 978-0-387-40272-7.

Kodiologist
quelle

Danke. Was wäre ein Test dafür bei einer Reihe von Proben aus der gemeinsamen Verteilung?

Jane

Ich lese arxiv.org/abs/1804.04622 . Ich habe die Referenzen nicht gelesen. Ich versuche zu verstehen, was man unter Kausalität auf der Grundlage von Beobachtungsdaten versteht.

Jane

Es tut mir Leid (-1), wird dies nicht das, was gefragt wird, müssen Sie nicht beobachten noch , beobachten Sie eine Probe von tatsächlichen Variablen , . Siehe die Zeitung, die Jane verlinkt hat.

Y_{1}

$Y_1$

Y_{2}

$Y_2$

X

$X$

Y

$Y$

Carlos Cinelli

@ Vimal: Ich verstehe den Fall, in dem wir "interventionelle Verteilungen" haben. Wir haben keine "interventionellen Verteilungen" in dieser Umgebung und das macht es schwieriger zu verstehen. Im motivierenden Beispiel im Papier geben sie etwas wie . Die bedingte Verteilung von y x gegeben ist im wesentlichen die Verteilung des Rauschens plus einige Übersetzung, während die nicht für die bedingte Verteilung von x y gegeben hält. Ich verstehe das Beispiel von Anfang an. Ich versuche zu verstehen, was die allgemeine Definition für die beobachtende Entdeckung von Kausalität ist.

(x, y = x^{3} + ϵ)

$(x, y=x^3+\epsilon)$

ϵ

$\epsilon$

Jane

@Jane für den Beobachtungsfall (für Ihre Frage), im Allgemeinen können Sie die Richtung der Kausalität nicht rein mathematisch ableiten, zumindest für den Fall mit zwei Variablen. Für mehr Variablen könnten Sie unter zusätzlichen (nicht testbaren) Annahmen einen Anspruch erheben, aber die Schlussfolgerung kann immer noch in Frage gestellt werden. Diese Diskussion ist in Kommentaren sehr lang. :)

Vimal

Es gibt zwei Möglichkeiten, um festzustellen, ob die Ursache für . Das erste ist Standard, während das zweite mein eigener Anspruch ist. $X$ $Y$

Es gibt eine Intervention für , sodass der Wert von geändert wird $X$ $Y$

Ein Eingriff ist eine chirurgische Änderung einer Variablen, die sich nicht auf die Variablen auswirkt, von denen sie abhängt. Eingriffe in strukturelle Gleichungen und kausale grafische Modelle wurden streng formalisiert, aber meines Wissens gibt es keine Definition, die von einer bestimmten Modellklasse unabhängig ist.

Die Simulation von erfordert die Simulation von $Y$ $X$

Um dies konsequent umzusetzen, muss ein Modell über und formalisiert werden , insbesondere die Semantik, die definiert, wie es simuliert wird. $X$ $Y$

In modernen Herangehensweisen an die Kausalität wird die Intervention als das primitive Objekt angesehen, das die Kausalzusammenhänge definiert (Definition 1). Meiner Meinung nach spiegelt die Intervention jedoch die Simulationsdynamik wider und entspricht ihr notwendigerweise.

zenna
quelle