Bedingte Wahrscheinlichkeit einer stetigen Variablen

12

Angenommen, die Zufallsvariable U folgt einer stetigen Gleichverteilung mit den Parametern 0 und 10 (dh UU(0,10) ).

Nun wollen wir bezeichnen A das Ereignis , dass U = 5 und B den Fall , dass U gleich entweder 5 oder 6. Nach meinem Verständnis, beide Ereignisse haben null Wahrscheinlichkeit auftreten.

Wenn wir nun überlegen, zu berechnen , können wir das bedingte Gesetz , weil gleich Null ist. Allerdings sagt meine Intuition mir , dass P ( A | B ) = 1 / 2 .P(A|B)P(A|B)=P(AB)P(B)P(B)P(EIN|B)=1/2

Anfänger
quelle
2
Was würde Ihnen Ihre Intuition sagen, wenn U eine ungleichmäßige Dichte von 0,02u,u(0,10) ?
Dilip Sarwate
1
@ DilipSarwate Meine Intuition würde mir sagen, dass die Antwort eine Zahl ist, die etwas niedriger als 0,5 ist
Noob

Antworten:

9

"Das Konzept einer bedingten Wahrscheinlichkeit in Bezug auf eine isolierte Hypothese, deren Wahrscheinlichkeit gleich 0 ist, ist unzulässig." A. Kolmogorov

Für kontinuierliche Zufallsvariablen, wie und Y , werden bedingte Verteilungen durch die Eigenschaft definiert, dass sie das ursprüngliche Wahrscheinlichkeitsmaß wiederherstellen, dh für alle messbaren Mengen A B ( X ) , B B ( Y ) , P ( X A , Y B ) = B d P Y ( y ) B d P X | Y ( x |XY.AB(X)BB(Y) Dies impliziert, dass die bedingte Dichte für Mengen von Maß Null willkürlich definiert wird, oder mit anderen Worten, dass die bedingte Dichte p X | Y ( x | y ) istfast überalldefiniert. Da die Menge { 5 , 6 } gegen das Lebesgue-Maß null ist, können Sie sowohl p ( 5 ) als auch p ( 6 ) absolut beliebig definieren und damit die Wahrscheinlichkeit P ( U = 5 |

P(XA,YB)=BdPY(y)BdPX|Y(x|y)
pX|Y(x|y){5,6}p(5)p(6) kann einen beliebigen Wert annehmen.
P(U=5|U{5,6})

Dies bedeutet nicht, dass Sie eine bedingte Dichte nicht wie im bivariaten Normalfall durch die Verhältnisformel definieren können, sondern lediglich, dass die Dichte für beide beinahe überall definiert ist x und y .

f(y|x)=f(x,y)/f(x)
xy

"Viele ziemlich vergebliche Auseinandersetzungen haben - zwischen sonst kompetenten Probabilisten - darüber gestritten, welches dieser Ergebnisse 'richtig' ist." ET Jaynes

Die Tatsache, dass das einschränkende Argument (wenn auf Null geht) in der obigen Antwort eine natürliche und intuitive Antwort zu geben scheint, hängt mit Borels Paradoxon zusammen . Die Wahl der Parametrisierung im Limit ist wichtig, wie das folgende Beispiel zeigt, das ich in meinen Grundkursen verwende.ϵ


Nehmen Sie die bivariate Normal Was ist die bedingte Dichte von X gegeben , dass X = Y ?

X,Yi.i.d.N(0,1)
XX=Y


Geht man von der Verbindungsdichte , die "intuitive" Antwort [proportional to] φ ( x ) 2 . Dies kann durch Berücksichtigung der Änderung der Variablen ( x ,φ(x)φ(y)φ(x)2 wobei T = Y - X die Dichte φ (

(x,t)=(x,yx)φ(x)φ(t+x)
T=YX . Daher istf(x|t)= φ ( x ) φ ( t + x )φ(t/2)/2 undf(x|t=0)=φ(x)φ(x)
f(x|t)=φ(x)φ(t+x)φ(t/2)/2
Betrachtet man jedoch stattdessen die Änderung der Variablen(x,r)=(x,y/x)φ(x)φ(rx)| x| die Randdichte vonR=Y/Xist die Cauchy-Dichteψ(r)=1/π{1+r2}und die bedingte Dichte vonX
f(x|t=0)=φ(x)φ(x)φ(0/2)/2=φ(x)22
(x,r)=(x,y/x)φ(x)φ(rx)|x|
R=Y/Xψ(r)=1/π{1+r2}Xgegeben ist f ( x | r ) = φ ( x ) φ ( r x ) | x | × π { 1 + r 2 } Daher ist f ( x | r = 1 ) = π φ ( x ) 2 | x | / 2R
f(x|r)=φ(x)φ(rx)|x|×π{1+r2}
Und hier liegt das „Paradox“: die Ereignisse R = 1 und T = 0 sind die gleichen wie X = Y , aber sie führen zu unterschiedlichen bedingten Dichten auf X .
f(x|r=1)=πφ(x)2|x|/2.
R=1T=0X=YX
Xi'an
quelle
2
Das ist einfach falsch. Wenn Sie einen rigorosen Kurs in der Wahrscheinlichkeitstheorie nehmen Sie die Konditionierung auf Ereignisse vom Maße Null zu sehen ist möglich, und praktisch. Betrachten Sie einen bitivariaten Gaußschen. Jeder weiß, dass Sie bedingen können, dass die erste Variable den Wert Null annimmt, obwohl dieses Ereignis eine Wahrscheinlichkeit von Null hat. Siehe Wikipedia. en.wikipedia.org/wiki/…
Yair Daon
5

Hier ist eine kontroverse Antwort:

Xi'an hat Recht, dass Sie keine Bedingungen für Ereignisse mit einer Wahrscheinlichkeit von Null festlegen können. Yair hat jedoch auch Recht, dass Sie, sobald Sie sich für einen einschränkenden Prozess entschieden haben , eine Wahrscheinlichkeit abschätzen können. Das Problem ist, dass es viele einschränkende Prozesse gibt, die zu dem gewünschten Zustand gelangen.

(1,11)p1p

Beachten Sie, dass viele Statistiker das Prinzip der Gleichgültigkeit nicht akzeptieren. Ich mag es, weil es meine Intuitionen widerspiegelt. Obwohl ich nicht immer sicher bin, wie ich es anwenden soll, wird es vielleicht in 50 Jahren mehr Mainstream sein?

Neil G
quelle
[0,10]506125
@whuber: Das Flipping-Argument würde für eine Cauchy-Distribution nicht funktionieren, es sei denn, Sie haben den Modus gewechselt.
Neil G
Sicher, es gibt viele Möglichkeiten, eine kontinuierliche Verteilung in eine andere umzuwandeln, bei der zwei Werte vertauscht werden. Tatsächlich hat Ihr "Spiegeln" nicht einmal die ursprüngliche Verteilung beibehalten. (Es hat seine Unterstützung insgesamt geändert.) Es sieht also so aus, als ob Sie nur eine Distribution durch eine andere ersetzen. Hier scheint es überhaupt kein Prinzip zu geben.
whuber
@whuber: Es hat eine Verteilung durch eine andere ersetzt, wobei die einheitlichen Bereiche um die 5 und 6 unverändert geblieben sind - so wie ich denke, dass beim Herauszoomen versucht wird, die Dichten in den ursprünglichen Kreisen im Bertrand-Paradoxon unverändert zu lassen .
Neil G
1
@whuber: Du hast recht. Ich mochte die Antwort von Potato auf eine meiner Fragen sehr. Ich persönlich denke, wenn es eine Diskrepanz zwischen Theorie und Intuition gibt, sollten wir nach neuen, vollständigeren Theorien suchen. Vielleicht ist das "Prinzip der Gleichgültigkeit" nicht ganz richtig oder im Allgemeinen nicht praktikabel, aber ich habe einen natürlichen Wunsch nach Wahrscheinlichkeitstheorie, um Fragen zu beantworten, für die wir ein intuitives Verständnis haben. Vielleicht hatte Lebesgue die gleiche Angst vor Riemanns Integration, als er sein Integral erstellte?
Neil G
1

EIN=[5-ϵ2,5+ϵ2] und B=[5-ϵ4,5+ϵ4][6-ϵ4,6+ϵ4]. Mach jetzt alles wie vorher und nimmϵ0.

Lassen Sie mich noch einmal (und noch einmal) betonen, dass die obige Methode für die Intuition verwendet wird. Das Konditionieren auf Ereignisse mit einer Wahrscheinlichkeit von Null wird sehr oft ohne viel Nachdenken durchgeführt. Das beste Beispiel, an das ich denken kann, ist wenn(X1,X2)N(0,Σ)ist ein bivariater Gaußscher. Man betrachtet oft die Dichte vonX1 gegeben X2=0Dies ist ein Ereignis von Maß Null. Dies ist theoretisch gut begründet, aber keineswegs trivial. Zu @ Xi'ans Zitat von Kolmogorov - ich kann nur Varadhan zitieren: "Eines unserer Ziele ist es, eine Definition zu finden, die Sinn macht, wannP(ξ=ein)=0"(Wahrscheinlichkeitstheorie, Vorlesungsunterlagen von Courant, Seite 74).

Also, ja, Sie können der Konditionierung von Ereignissen des Maßes Null einen Sinn geben.

Yair Daon
quelle
5
Annehmen UU[0,10]: das heißt, beide 0 und 10Sind möglich. Wie würden Sie mit der Situation umgehen, wennEIN={0} und B={0,6}? WürdeP(EIN|B)=1/2 (was "intuitiv" die richtige Antwort ist, weil alle Zahlen in [0,10] haben die gleichen Dichten) oder vielleicht 1/3 (which a simple change of 5 to 0 in your formula would give) or even 0?
whuber
2
@YairDaon Thank you for you answer! If I understood well, you mean to do the following: for small ε, we have: P(A|B)=P(AB)P(B)=5ε45+ε4f(u)du5ε45+ε4f(u)du+6ε46+ε4f(u)du=ε2ε2+ε2=0.5
Noob
3
@YairDaon But I think that the result is not invariant if originally we had defined A as [5ε8,5+ε8] (and B the same as before). In such a case the result would be 18
Noob
4
It is excellent for the intuition by showing there is no unique answer: that is the basis for Kolmogorov's statement quoted by @Xi'an. The fact you had to change your procedure to make things come out as you thought they should ought to alert you to the problems with this approach.
whuber
3
The density of X2 given X1 is well-defined, contrary to the density of X2 given X1=0.
Xi'an