Ich versuche die d-Separation-Logik in kausalen Bayes'schen Netzwerken zu verstehen. Ich weiß, wie der Algorithmus funktioniert, aber ich verstehe nicht genau, warum der "Informationsfluss" so funktioniert, wie er im Algorithmus angegeben ist.
Nehmen wir zum Beispiel in der obigen Grafik an, dass wir nur X erhalten und keine andere Variable beobachtet wurde. Dann fließt nach den Regeln der d-Trennung die Information von X nach D:
X beeinflusst A, also . Dies ist in Ordnung, da A X verursacht und wenn wir den Effekt X kennen, beeinflusst dies unseren Glauben an die Ursache A. Der Informationsfluss.
X beeinflusst B, also . Dies ist in Ordnung, da A durch unser Wissen über X geändert wurde, kann die Änderung an A auch unsere Überzeugungen über die Ursache beeinflussen.
X beeinflusst C, also . Dies ist in Ordnung, weil wir wissen, dass B durch unser Wissen über seinen indirekten Effekt X voreingenommen ist, und da B durch X voreingenommen ist, beeinflusst dies alle direkten und indirekten Effekte von B. C ist eine direkte Auswirkung von B und wird durch unser Wissen über X beeinflusst.
Nun, bis zu diesem Punkt ist für mich alles in Ordnung, da der Informationsfluss nach intuitiven Ursache-Wirkungs-Beziehungen erfolgt. Das besondere Verhalten von sogenannten "V-Strukturen" oder "Collidern" verstehe ich in diesem Schema jedoch nicht. Gemäß der d-Separationstheorie sind B und D die häufigsten Ursachen für C in der obigen Grafik und es heißt, dass, wenn wir C oder einen seiner Nachkommen nicht beobachtet haben, die Flussinformationen von X bei C blockiert sind. Nun, OK , aber meine Frage ist warum?
Ausgehend von X haben wir in den drei obigen Schritten gesehen, dass C durch unser Wissen über X beeinflusst wird und der Informationsfluss gemäß der Ursache-Wirkungs-Beziehung erfolgt. Die d-Separationstheorie besagt, dass wir nicht von C nach D gehen können, da C nicht beobachtet wird. Aber ich denke, da wir wissen, dass C voreingenommen ist und D eine Ursache von C ist, sollte auch D betroffen sein, während die Theorie das Gegenteil besagt. Ich vermisse eindeutig etwas in meinem Denkmuster, kann aber nicht erkennen, was es ist.
Ich brauche also eine Erklärung, warum der Informationsfluss bei C blockiert ist, wenn C nicht beachtet wird.
quelle
Antworten:
Ist es nicht intuitiv, dass Sie nicht von einer Ursache zu einer nicht beobachteten Wirkung auf eine andere Ursache übergehen können? Wenn der Regen (B) und der Sprinkler (D) Ursachen des nassen Bodens (C) sind, können Sie argumentieren, dass Regen zu sehen bedeutet, dass der Boden wahrscheinlich nass ist, und weiterhin begründen, dass der Sprinkler seit dem Boden eingeschaltet sein muss ist nass?! Natürlich nicht. Sie argumentierten, dass der Boden wegen des Regens nass war - Sie können nicht nach zusätzlichen Ursachen suchen!
Wenn Sie den nassen Boden beobachten, ändert sich natürlich die Situation. Jetzt können Sie möglicherweise von einer Ursache zur anderen argumentieren, wie Frank erklärt.
quelle
Vergessen wir X für einen Moment und betrachten nur die Kollider von B, C und D. Der Grund, warum die v-Struktur den Pfad zwischen B und D blockieren kann, ist im Allgemeinen, dass Sie zwei unabhängige Zufallsvariablen haben (B und D) die sich auf dasselbe Ergebnis auswirken (C). Wenn Sie dann das Ergebnis kennen, können Sie Rückschlüsse auf die Beziehung zwischen den Zufallsvariablen ziehen und so den Informationsfluss ermöglichen.
Um dies besser zu verstehen, kann ein Blick auf Berksons Paradox hilfreich sein, der dieselbe Situation beschreibt.
quelle
Dann ist die harte Nuss, die hier zu knacken ist, die V-Struktur. Ich möchte den Unterschied zwischen der Wahrscheinlichkeit einer Variablen S, die nur von der Beobachtung des Effekts abhängig ist, und dem Einfluss der Beobachtung einer anderen Variablen D, die in derselben Situation von S unabhängig ist, anhand eines fiktiven Beispiels veranschaulichen .
Nehmen wir an, jemand nimmt an einem Kurs teil, sagen wir lineare Algebra. Ob er die Prüfung bestehen kann, hängt hauptsächlich von der Schwierigkeit der Prüfung ab. Wir bezeichnen das Ereignis des Bestehens des Kurses mit P, andernfalls mit 1 und 0; und die Schwierigkeit der Prüfung als D, schwierig als 1 und einfach als 0. Und etwas Unsinn kann auch einen Einfluss auf seine Leistung oder das Ergebnis haben, sagen wir, die Singularität passiert und er würde von einer Maschine einer Gehirnwäsche unterzogen und entscheidet sich dann dagegen nimm die Prüfung. Wir bezeichnen dieses Ereignis mit S und seine Wahrscheinlichkeit beträgt 0,0001. Das scheint unmöglich, aber per Definition sollte seine Chance nicht Null sein.
Daher haben wir jetzt ein Diagramm der V-Strukturform:
1) Wenn wir das Ergebnis nicht kennen, können wir die Wahrscheinlichkeit der Singularität berechnen, wenn der Kurs einfach ist.
Wie Sie oben sehen können, spielt es keine Rolle, ob die Prüfung bestanden wurde oder nicht. Was kommt wie es kommen soll. Es kann als marginale Wahrscheinlichkeit über P gesehen werden.
Und wir können auch herausfinden, mit welcher Wahrscheinlichkeit die Singularität auftritt, wenn der Schüler die Prüfung nicht besteht:
Da wir wissen, dass der Typ die Prüfung nicht besteht, können wir davon ausgehen, dass er möglicherweise von einer Maschine einer Gehirnwäsche unterzogen wird. Dies ist mit 0,0001818 etwas größer, als wenn wir es nicht wissen.
Möge diese detaillierte Ableitung von hlep sein.
quelle