Wie kann man Berksons Irrtum beweisen?

7

Dies ist eine Frage, die auf Berksons Irrtum basiert . Ist die folgende Ungleichung wahr? Wenn ja, wie kann man das beweisen?

P(A|AB)P(A)

WCB
quelle
3
Die Ungleichung benötigt Quantifizierer. Meinst du für alle und oder kann es und ? Es muss auch etwas genauer angegeben werden, da offensichtlich Ihre strikte Ungleichung verletzt, wenn der gesamte Raum ist. AB ABP(A|AB)=P(A)AB
whuber
In der bearbeiteten Version (mit dem Größer-als-Zeichen) sollte dies für alle und , oder? Ist das nicht die Natur des "Paradoxons"? AB
Matt Krause

Antworten:

10

P(AAB)=P(A)P(AB)P(A).
dsaxton
quelle
3
+1. Da möglicherweise , könnte dies durch Neufassung in der Form rigoros gemacht werden Die erste Gleichheit wird oft als Axiom der Wahrscheinlichkeit genommen, während die zweite aus dem Axiom folgt, dass keine Wahrscheinlichkeit wie überschreiten kann . P(AB)=0
P(A)=P(A|AB)P(AB)P(A|AB)(1)=P(A|AB).
P(AB)1
whuber
2

Ich habe es meistens als Berksons Paradoxon gehört und es bezieht sich auf die falsche Erzeugung von Assoziationen, wenn Sie eine Exposition und ein Ergebnis vergleichen und nur Personen mit entweder der Exposition oder dem Ergebnis befragen. Angenommen, die Zuordnung auf Bevölkerungsebene lautet:

DD¯En11n12n1.E¯n21n22n2.n.1n.2

Dann ist das relative Krankheitsrisiko gegeben durch:

RR=n11/n1.n21/n2.

In Ihrer Stichprobe erhalten Sie jedoch Folgendes:

DD¯En11n12n1.E¯n210n2.n22n.1n.2n22

mit den Zellzahlen und Rändern proportional zur "Population" über WLOG.

Das geschätzte relative Risiko wird:

RRBerkson=n11/n1.n21/(n2.n22)

Dies ist voreingenommen, außer wenn .n22=0

In weniger biostatistischer Weise sei dann und wir sind mit der Annahme fertig.P(AB)1P(A|AB)=P(AAB)P(AB)=P(A)P(AB)

AdamO
quelle
Wie interpretieren Sie die Frage und wie beantworten Sie sie? Es sieht so aus, als ob es entweder "Ja" oder "Nein" sein sollte, aber ich sehe in dieser Antwort nichts Bestimmtes.
whuber
1

Ja , es ist wahr, dass .P(A|AB)P(A)

Ich finde, das hilft, die beiden Größen als Brüche zu betrachten. Dann folgt das Ganze aus diesen beiden Tatsachen:

  • Der Zähler beider Wahrscheinlichkeiten besteht aus der Anzahl der in der Population vorhandenen . Dies ist im Fall der bedingungslosen Wahrscheinlichkeit trivial und wird durch dieAP(A)A in der bedingten Wahrscheinlichkeit auf beiden Seiten der Bedingung erscheint . Mit anderen Worten, konstruktionsbedingt kann die bedingte "Beschränkung" keine wegwerfen .P(A|AB)A

  • Der Nenner von ist die Summe der Anzahl von s in der Population plus der Anzahl von s darin plus der Anzahl von s, s und was auch immer sich sonst darin befindet. Der Nenner von ist jedoch lediglich die Anzahl von s plus die Anzahl von s; Die Bedingung schließt alles andere aus. Da dies alles nicht negative Zahlen sind, muss der Nenner von mindestens so groß sein wie der Nenner von .P(A)ABCDP(A|AB)ABP(A)P(A|AB)

Wir haben also

P(A)=||A||||A||+|| Everything else ||P(A|AB)=||A||||A||+||B||||AB||

Da sind die Zähler gleich, aber P(A) größer oder gleich , muss es wahr sein, dassP(A|AB)P(A|AB)P(A).

Die Leute nennen dies ein Paradoxon, weil es wahr ist, selbst wenn und nicht miteinander zusammenhängen oder sich sogar gegenseitig ausschließen. Angenommen, ist die Wahrscheinlichkeit, dassABP(A)A Profi-Basketball spielt, und zeigt an, dass beim Basketball schrecklich ist. Die Ungleichheit bleibt bestehen, da die Bedingung Menschen ausschließt, die beim Basketball fair bis mittelmäßig sind (und nicht zufällig für die Knicks spielen), sodass der Nenner immer noch kleiner als die Gesamtbevölkerung ist.BB

Allgemeiner ist es wahr, dass der Nenner einer bedingten Wahrscheinlichkeit immer kleiner oder gleich dem Nenner einer bedingungslosen Wahrscheinlichkeit ist.

Matt Krause
quelle
Denken Sie daran, dass . undP(AB)=P(A)+P(B)P(AB)ABdarf sich nicht gegenseitig ausschließen.
Dsaxton
@dsaxton, wahr - obwohl das den Nenner der Bedingung noch mehr verkleinert ...
Matt Krause
Gibt es einen Tippfehler im letzten Satz Ihrer zweiten Kugel? Es widerspricht dem letzten Satz vor dem schwarzen Quadrat?
Buchhaltung