Verständnis der d-Separationstheorie in kausalen Bayes'schen Netzwerken

15

Ich versuche die d-Separation-Logik in kausalen Bayes'schen Netzwerken zu verstehen. Ich weiß, wie der Algorithmus funktioniert, aber ich verstehe nicht genau, warum der "Informationsfluss" so funktioniert, wie er im Algorithmus angegeben ist.

Bildbeschreibung hier eingeben

Nehmen wir zum Beispiel in der obigen Grafik an, dass wir nur X erhalten und keine andere Variable beobachtet wurde. Dann fließt nach den Regeln der d-Trennung die Information von X nach D:

  1. X beeinflusst A, also . Dies ist in Ordnung, da A X verursacht und wenn wir den Effekt X kennen, beeinflusst dies unseren Glauben an die Ursache A. Der Informationsfluss.P(A)P(A|X)

  2. X beeinflusst B, also . Dies ist in Ordnung, da A durch unser Wissen über X geändert wurde, kann die Änderung an A auch unsere Überzeugungen über die Ursache beeinflussen.P(B)P(B|X)

  3. X beeinflusst C, also . Dies ist in Ordnung, weil wir wissen, dass B durch unser Wissen über seinen indirekten Effekt X voreingenommen ist, und da B durch X voreingenommen ist, beeinflusst dies alle direkten und indirekten Effekte von B. C ist eine direkte Auswirkung von B und wird durch unser Wissen über X beeinflusst.P(C)P(C|X)

Nun, bis zu diesem Punkt ist für mich alles in Ordnung, da der Informationsfluss nach intuitiven Ursache-Wirkungs-Beziehungen erfolgt. Das besondere Verhalten von sogenannten "V-Strukturen" oder "Collidern" verstehe ich in diesem Schema jedoch nicht. Gemäß der d-Separationstheorie sind B und D die häufigsten Ursachen für C in der obigen Grafik und es heißt, dass, wenn wir C oder einen seiner Nachkommen nicht beobachtet haben, die Flussinformationen von X bei C blockiert sind. Nun, OK , aber meine Frage ist warum?

Ausgehend von X haben wir in den drei obigen Schritten gesehen, dass C durch unser Wissen über X beeinflusst wird und der Informationsfluss gemäß der Ursache-Wirkungs-Beziehung erfolgt. Die d-Separationstheorie besagt, dass wir nicht von C nach D gehen können, da C nicht beobachtet wird. Aber ich denke, da wir wissen, dass C voreingenommen ist und D eine Ursache von C ist, sollte auch D betroffen sein, während die Theorie das Gegenteil besagt. Ich vermisse eindeutig etwas in meinem Denkmuster, kann aber nicht erkennen, was es ist.

Ich brauche also eine Erklärung, warum der Informationsfluss bei C blockiert ist, wenn C nicht beachtet wird.

Ufuk Can Bicici
quelle
Es fließt nicht von X nach D, wenn nur X beobachtet wird. Sie geben es direkt unter dem Bild an. (Obwohl Sie es weiter unten richtig beschreiben).
Ziggystar
Ich weiß das schon, dass der Informationsfluss bei C blockiert ist, wo wir eine "V-Struktur" haben. Was ich wissen möchte, ist warum; Warum blockiert eine V-Struktur den Informationsfluss, wenn wir C aus der Sicht der Ursache-Wirkungs-Beziehung nicht beobachten?
Ufuk Can Bicici

Antworten:

6

Ist es nicht intuitiv, dass Sie nicht von einer Ursache zu einer nicht beobachteten Wirkung auf eine andere Ursache übergehen können? Wenn der Regen (B) und der Sprinkler (D) Ursachen des nassen Bodens (C) sind, können Sie argumentieren, dass Regen zu sehen bedeutet, dass der Boden wahrscheinlich nass ist, und weiterhin begründen, dass der Sprinkler seit dem Boden eingeschaltet sein muss ist nass?! Natürlich nicht. Sie argumentierten, dass der Boden wegen des Regens nass war - Sie können nicht nach zusätzlichen Ursachen suchen!

Wenn Sie den nassen Boden beobachten, ändert sich natürlich die Situation. Jetzt können Sie möglicherweise von einer Ursache zur anderen argumentieren, wie Frank erklärt.

Neil G
quelle
4

Vergessen wir X für einen Moment und betrachten nur die Kollider von B, C und D. Der Grund, warum die v-Struktur den Pfad zwischen B und D blockieren kann, ist im Allgemeinen, dass Sie zwei unabhängige Zufallsvariablen haben (B und D) die sich auf dasselbe Ergebnis auswirken (C). Wenn Sie dann das Ergebnis kennen, können Sie Rückschlüsse auf die Beziehung zwischen den Zufallsvariablen ziehen und so den Informationsfluss ermöglichen.

P(B|D)P(B)P(D|B)P(D)). Wenn Sie also wissen, dass der Rasen nass ist, wird der Weg frei und B und D sind abhängig.

Um dies besser zu verstehen, kann ein Blick auf Berksons Paradox hilfreich sein, der dieselbe Situation beschreibt.

FrankD
quelle
1) Ich habe Schwierigkeiten zu verstehen, was eine unabhängige Ursache ist, bevor ich etwas über D-Separation definiere. Viele Autoren definieren die D-Trennung durch intuitive Ursache-Wirkungs-Beziehungen. Ich versuche, ein Argumentationssystem aufzubauen, das auf dem basiert, was ich aus verschiedenen Quellen lese, und auf meinen Intuitionen, damit ich mich mit diesem Theorem abfinden kann. Es ist wie folgt: "Wenn keine andere Variable als X beobachtet wird, kann das Wissen über X die Auswirkungen von X (alle Nachkommen), die direkten oder indirekten Ursachen von X (Vorfahren) und alle anderen Auswirkungen der Ursachen von X beeinflussen."
Ufuk Can Bicici
2) Ich begründe diesen Gedanken so: A) X kann offensichtlich seine direkten und indirekten Auswirkungen beeinflussen, da unterschiedliche X-Werte unterschiedliche Ursachen erzeugen. B) X kann seine direkten und indirekten Ursachen beeinflussen, denn wenn wir einen Effekt beobachten, können wir in einem diagnostischen Ansatz neue Informationen über die Ursachen gewinnen. C) X beeinflusst die anderen Wirkungen (außer sich selbst) aller seiner direkten und indirekten Ursachen, da das Wissen über X unsere Überzeugungen über diese Ursachen geändert hat, was wiederum alle Wirkungen beeinflusst. Ich versuche, solche kausalen Bayes'schen Netzwerke nach diesem Muster zu interpretieren. Ist das von Anfang an richtig?
Ufuk Can Bicici
3) Es ist, als würde ich versuchen, ein intuitives "Informationsfluss" -Muster zu bilden, um das Verhalten der Variablen in Abhängigkeit von der Unabhängigkeit zu verstehen. Mit diesem Muster kann ich nicht erkennen, was eine eigenständige Sache ist, und hier stecke ich fest. Offensichtlich vermisse ich etwas oder ich kann mit diesem Gedankenmuster völlig falsch liegen.
Ufuk Can Bicici
Ich denke, meine ursprüngliche Antwort war leicht irreführend, weil ich B und D als "Ursachen" bezeichnet habe (jetzt behoben). Informationsfluss ist ein Konzept, das mit Beobachtungen und nicht mit kausalen Eingriffen verbunden ist. Wie Sie wissen, sind zwei Zufallsvariablen unabhängig voneinander, wenn die eine keine Informationen über die zweite liefert. Ihre Aussagen scheinen Beobachtung und Schlussfolgerung in Einklang zu bringen. Die Beobachtung von X ermöglicht es uns, die Folgerung seiner Eltern (Aussage A) und seine direkten Ursachen anzupassen. Wenn jedoch eine V-Struktur den Pfad blockiert, können wir die Folgerung aus den oben beschriebenen Gründen nicht für indirekte Ursachen anpassen.
FrankD
1

Nun, bis zu diesem Punkt ist für mich alles in Ordnung, da der Informationsfluss nach intuitiven Ursache-Wirkungs-Beziehungen erfolgt. Das besondere Verhalten von sogenannten "V-Strukturen" oder "Collidern" verstehe ich in diesem Schema jedoch nicht.

Dann ist die harte Nuss, die hier zu knacken ist, die V-Struktur. Ich möchte den Unterschied zwischen der Wahrscheinlichkeit einer Variablen S, die nur von der Beobachtung des Effekts abhängig ist, und dem Einfluss der Beobachtung einer anderen Variablen D, die in derselben Situation von S unabhängig ist, anhand eines fiktiven Beispiels veranschaulichen .

Nehmen wir an, jemand nimmt an einem Kurs teil, sagen wir lineare Algebra. Ob er die Prüfung bestehen kann, hängt hauptsächlich von der Schwierigkeit der Prüfung ab. Wir bezeichnen das Ereignis des Bestehens des Kurses mit P, andernfalls mit 1 und 0; und die Schwierigkeit der Prüfung als D, schwierig als 1 und einfach als 0. Und etwas Unsinn kann auch einen Einfluss auf seine Leistung oder das Ergebnis haben, sagen wir, die Singularität passiert und er würde von einer Maschine einer Gehirnwäsche unterzogen und entscheidet sich dann dagegen nimm die Prüfung. Wir bezeichnen dieses Ereignis mit S und seine Wahrscheinlichkeit beträgt 0,0001. Das scheint unmöglich, aber per Definition sollte seine Chance nicht Null sein.

Daher haben wir jetzt ein Diagramm der V-Strukturform:

 D   S
  | |
 \| |/ 
   P  

P(¬P|S)=0.999999P(P|S)=0.000001

| d0   | d1      |      
|:-----|--------:|   
| 0.5  | 0.5     |  

| s0     | s1      |      
|:-------|--------:|   
| 0.9999 | 0.0001  |

| S     | D    | P(p0|S,D) | P(p1|S,D) |  
|:------|-----:|----------:|----------:|
|s0     | d0   |   0.20    |   0.80    |
|s0     | d1   |   0.90    |   0.10    |
|s1     | d0   |   0.999999|   0.000001|
|s1     | d1   |   0.999999|   0.000001| 

P(S|P)P(S|P,D)

1) Wenn wir das Ergebnis nicht kennen, können wir die Wahrscheinlichkeit der Singularität berechnen, wenn der Kurs einfach ist.

P(S|¬D)=P(S,P|¬D)+P(S,¬P|¬D)=P(S=1,P=1,D=0)P(D=0)+P(S=1,P=0,D=0)P(D=0)=P(S=1)P(D=0|S=1)P(P=1|D=0,S=1)P(D=0)+P(S=1)P(D=0|S=1)P(P=0|D=0,S=1)P(D=0)=P(S=1)P(D=0|S=1)P(D=0)=P(S=1)P(D=0)P(D=0)=P(S=1)=0.0001

Wie Sie oben sehen können, spielt es keine Rolle, ob die Prüfung bestanden wurde oder nicht. Was kommt wie es kommen soll. Es kann als marginale Wahrscheinlichkeit über P gesehen werden.

Und wir können auch herausfinden, mit welcher Wahrscheinlichkeit die Singularität auftritt, wenn der Schüler die Prüfung nicht besteht:

P(S,|¬P)=P(S,¬P)P(¬P)=P(S,¬p,D)+P(S,¬P,¬D)P(¬P)=P(¬P|S,D)P(S)P(D)+P(¬P|S,¬D)P(S)P(¬D)S,DP(¬P|S,D)P(S)P(D)=0.0001818

Da wir wissen, dass der Typ die Prüfung nicht besteht, können wir davon ausgehen, dass er möglicherweise von einer Maschine einer Gehirnwäsche unterzogen wird. Dies ist mit 0,0001818 etwas größer, als wenn wir es nicht wissen.

P(S,|¬P,¬D)=P(S=1,P=0,D=0)P(P=0,D=0)=P(P=0|S=1,D=0)P(S=1)P(D=0)P(P=0|S=1,D=0)P(S=1)P(D=0)+P(P=0|S=0,D=0)P(S=0)P(D=0)=0.999999×0.0001×0.50.2×0.9999×0.5+0.999999×0.0001×0.5=0.0004998

P(S|P)P(S|P,D)SD|PI(P(P,S,D))

Möge diese detaillierte Ableitung von hlep sein.

Lerner Zhang
quelle