Wie ist

11

Angenommen, Y ist eine kontinuierliche Zufallsvariable und X ist eine diskrete.

Pr(X=x|Y=y)=Pr(X=x)Pr(Y=y|X=x)Pr(Y=y)

Wie wir wissen, ist Pr(Y=y)=0 weil Y eine kontinuierliche Zufallsvariable ist. Und auf dieser Grundlage bin ich versucht zu schließen, dass die Wahrscheinlichkeit Pr(X=x|Y=y) undefiniert ist.

Jedoch behauptet Wikipedia hier , dass es tatsächlich wie folgt definiert ist:

Pr(X=x|Y=y)=Pr(X=x)fY|X=x(y)fY(y)

Frage: Wie hat Wikipedia es geschafft, diese Wahrscheinlichkeit zu definieren?


Mein Versuch

Hier ist mein Versuch, dieses Wikipedia-Ergebnis in Bezug auf Grenzen zu erhalten:

Pr(X=x|Y=y)=Pr(X=x)Pr(Y=y|X=x)Pr(Y=y)=limd0Pr(X=x)(d×fY|X=x(y))(d×fY(y))=limd0Pr(X=x)(d×fY|X=x(y))(d×fY(y))=Pr(X=x)fY|X=x(y)fY(y)

Nun scheint als , was übereinstimmt diese Wikipedia behaupten.Pr ( X = x ) f Y | X = x ( y )Pr(X=x|Y=y)Pr(X=x)fY|X=x(y)fY(y)

Hat Wikipedia das so gemacht?

Aber ich habe immer noch das Gefühl, dass ich hier Kalkül missbrauche. Ich denke also, dass undefiniert ist, aber in der Grenze, in der wir uns so nah wie möglich nähern, um und , aber nicht augenblicklich, dann ist definiert.Pr ( Y = y ) Pr ( Y = y | X = x ) Pr ( X = x | Y = y )Pr(X=x|Y=y)Pr(Y=y)Pr(Y=y|X=x)Pr(X=x|Y=y)

Aber ich bin mir in vielen Dingen weitgehend unsicher, einschließlich des Limits-Tricks, den ich dort gemacht habe. Ich habe das Gefühl, dass ich die Bedeutung dessen, was ich getan habe, vielleicht nicht einmal vollständig verstehe.

Höhlenmensch
quelle
1
In der Tat ist Pr (X = x) = 0, aber die Dichte von X in xf (x) ist möglicherweise nicht gleich 0. Sollten Sie nicht die Bezeichnung "Selbststudium" verwenden?
Lil'Lobster
2
@Lil Soweit ich weiß, ist das "Selbststudium" -Tag beim Lösen von Hausaufgaben. Ich tue das nicht.
Höhlenmensch
1
Die Wikipedia-Seite bezieht sich tatsächlich auf die Ableitung: en.wikipedia.org/wiki/Bayes'_theorem#Derivation
Ytsen de Boer
3
Ich fürchte, Ihre Ableitung hat keine mathematische Rechtfertigung als für alle wenn stetig ist. y Y Y.P(Y=y)=0yYY
Xi'an

Antworten:

10

Die bedingte Wahrscheinlichkeitsverteilung , , wird formal als Lösung der Gleichung wobei die Algebra bezeichnet, die mit der Verteilung von . Eine dieser Lösungen liefert die in Wikipedia angegebene Bayes-Formel (1763) :x X y Y P ( X = x , Y A ) = A P ( X = x | Y = y ) f Y ( y ) d yP(X=x|Y=y)xXyYσ ( Y ) σ Y P ( X = x | Y = y ) = P ( X = x ) f Y | X = x ( y )

P(X=x,YA)=AP(X=x|Y=y)fY(y)dyAσ(Y)
σ(Y)σY σ ( Y )
P(X=x|Y=y)=P(X=x)fY|X=x(y)fY(y)xX, yY
Es sind jedoch auch Versionen gültig, die auf einem in festgelegten Maß-Null-Satz willkürlich definiert sind.σ(Y)

Das Konzept einer bedingten Wahrscheinlichkeit in Bezug auf eine isolierte Hypothese, deren Wahrscheinlichkeit gleich 0 ist, ist unzulässig. Denn eine Wahrscheinlichkeitsverteilung für [den Breitengrad] auf dem Meridian-Kreis können wir nur erhalten, wenn wir diesen Kreis als ein Element der Zerlegung der gesamten sphärischen Oberfläche auf Meridian-Kreise mit den gegebenen Polen betrachten -  Andrei Kolmogorov

Wie das Borel-Kolmogorov-Paradoxon zeigt , hat die bedingte Wahrscheinlichkeitsverteilung bei einem bestimmten Wert möglicherweise , keine genaue Bedeutung, nicht nur, weil das Ereignis ist vom Maß Null, aber auch, weil dieses Ereignis als messbar gegen einen unendlichen Bereich von Algebren interpretiert werden kann . Y P ( X = x | Y = y 0 ) { ω ;y0YP(X=x|Y=y0){ω;Y(ω)=y0}σ

Hinweis: Hier ist eine noch formellere Einführung aus einer Überprüfung der Wahrscheinlichkeitstheorie in Terry Taos Blog :

Definition 9 (Disintegration) Let eine Zufallsvariable mit Bereich . Eine Auflösung des zugrunde liegenden Probenraums in Bezug auf ist eine Teilmenge von mit vollem Maß in (also fast sicher), zusammen mit der Zuweisung eines Wahrscheinlichkeitsmaßes im Unterraum von für jedes , was in dem Sinne messbar ist, dass die KarteYR(R,(μy)yR)ΩYRRμYYRP(|Y=y)Ωy:={ωΩ:Y(ω)=y}ΩyRyP(F|Y=y)ist für jedes Ereignis messbar und so, dass für alle derartigen Ereignisse gilt, wobei ist die (fast sicher definierte) Zufallsvariable, die definiert ist, um immer wenn .F

P(F)=EP(F|Y)
P(F|Y)P(F|Y=y)Y=y

Bei einer solchen Auflösung können wir dann für jedes das Ereignis konditionieren indem wir durch den Unterraum (durch die induzierte ) ersetzen, aber das zugrunde liegende Wahrscheinlichkeitsmaß ersetzen mit . Wir können also (bedingungslose) Ereignisse und Zufallsvariablen auf dieses Ereignis konditionieren, um konditionierte Ereignisse und Zufallsvariablen auf dem konditionierten Raum zu erzeugen , was zu bedingten WahrscheinlichkeitenY=yyRΩΩyσPP(|Y=y)FX(F|Y=y)(X|Y=y)P(F|Y=y)(was mit der vorhandenen Notation für diesen Ausdruck übereinstimmt) und bedingte Erwartungen (unter der Annahme einer absoluten Integrierbarkeit in diesem konditionierten Raum). Wir setzen dann als die (fast sicher definierte) Zufallsvariable, die definiert ist, um wann immer .E(X|Y=y)E(X|Y)E(X|Y=y)Y=y

Xi'an
quelle
1
Schon + 1, aber ... vielleicht ist es ein Trottel, aber wäre es nicht genauer, den Bayes-Satz als Formel von Bayes / Laplace zu bezeichnen?
Tim
2
@ Tim: Danke, aber ich möchte nicht übermäßig chauvinistisch klingen! Und es ist eine Tatsache, dass die Bayes-Formel für diskret (Binomial) und stetig (Beta) in Bayes (1763) -Papier erscheint. Natürlich hat Laplace das Ergebnis in einer viel breiteren Allgemeinheit festgelegt. XY
Xi'an
4

Ich werde eine Skizze geben, wie die Teile zusammenpassen können, wenn kontinuierlich und diskret ist.YX

Die gemischte Fugendichte:

fXY(x,y)

Grenzdichte und Wahrscheinlichkeit:

fY(y)=xXfXY(x,y)

P(X=x)=fXY(x,y)dy

Bedingte Dichte und Wahrscheinlichkeit:

fYX(yX=x)=fXY(x,y)P(X=x)

P(X=xY=y)=fXY(x,y)fY(y)

Bayes-Regel:

fYX(yX=x)=P(X=xY=y)fY(y)P(X=x)

P(X=xY=y)=fYX(yX=x)P(X=x)fY(y)

Natürlich ist die moderne, rigorose Art, mit Wahrscheinlichkeit umzugehen, die Maßtheorie. Eine genaue Definition finden Sie in Xi'ans Antwort.

Matthew Gunn
quelle
2

Beachten Sie, dass der Wikipedia-Artikel tatsächlich die folgende Definition verwendet: Das heißt, es ist behandelt das Ergebnis als Dichte, nicht als Wahrscheinlichkeit, wie Sie es haben. Ich würde also sagen, Sie haben Recht, dass undefiniert ist, wenn stetig und diskret ist, weshalb wir in diesem Fall stattdessen nur Wahrscheinlichkeitsdichten über berücksichtigen . P(X=x|Y=y)XYX.

fX(x|Y=y)=P(Y=y|X=x)fX(x)p(Y=y)
P(X=x|Y=y)XYX

Bearbeiten: Aufgrund einer Verwirrung über die Notation (siehe Kommentare) bezieht sich das Obige tatsächlich auf die entgegengesetzte Situation zu der, nach der der Höhlenmensch gefragt hat.

Ruben van Bergen
quelle