Warum nicht den Bayes-Satz in der Form

9

Es gibt viele Fragen (wie diese ) über eine Mehrdeutigkeit mit der Bayes'schen Formel im kontinuierlichen Fall.

p(θ|x)=p(x|θ)p(θ)p(x)

Oft entsteht Verwirrung aus der Tatsache , dass Definition der bedingten Verteilung wird erklärt , wie ist abhängig von festen gegebenen .f(variable|parameter)fvariableparameter

Daneben gibt es ein Äquivalenzprinzip, das besagt, dass die Wahrscheinlichkeit wie folgt geschrieben werden kann:

L(θ|x)=p(x|θ)

Warum also nicht die Bayes-Regel für Verteilungen in der folgenden Form verwenden:

p(θ|x)=L(θ|x)p(θ)p(x)

um zu betonen, dass es sich um Funktionen von bei beobachteten Daten handelt und dass der jeweilige Term Wahrscheinlichkeit ist (zumindest beginnend mit )?θxL.L

Ist das eine Frage der Tradition oder gibt es etwas grundlegenderes in dieser Praxis?

iot
quelle
Was bedeutet ? Ich weiß das als Wahrscheinlichkeit. Aber im kontinuierlichen Fall sehe ich nicht, über welche Wahrscheinlichkeit Sie sprechen. p()
Sextus Empiricus
@MartijnWeterings, Funktionen sollten in allen Fällen gültige Wahrscheinlichkeitsverteilungen sein, außer wenn es sich um "Wahrscheinlichkeit" der Form p ( x | θ ) handelt . Vermisse ich etwas p()p(x|θ)
iot
Was meinst du mit Wahrscheinlichkeitsverteilung? Kumulativ, Dichte usw.?
Sextus Empiricus
1
Es könnte hilfreich sein, einen Schritt zurückzutreten und zu erkennen, dass der Bayes-Satz keine "Variablen" enthält, zumindest wenn Sie den Begriff verwenden. Es gibt Datenpunkte und Modellparameter. In diesem Sinne ist . Sie rufen eine posteriorartige Kreatur P ( m o d e l | d a t a ) auf, die Sie dann als Wahrscheinlichkeit bezeichnen. Aber es ist nicht so. Ich bin mir also nicht sicher, wohin du damit gehst. Und im Allgemeinen ist p ( x | y ) = p ( y | x )P(model|data)P(data)=P(data,model)=P(data|model)P(model)P(model|data) was in dem Fall unsinnig ist, in dem x = d a t a und y = m o d e l . x und y haben nicht einmal die gleiche Unterstützung. p(x|y)=p(y|x)p(x)=p(y)x=datay=model. xy
Peter Leopold

Antworten:

6

Es gibt zwei grundlegende Ergebnisse aus der Wahrscheinlichkeit, die im Bayes-Theorem wirken. Eine Möglichkeit besteht darin, eine gemeinsame Wahrscheinlichkeitsdichtefunktion neu zu schreiben :

p(x,y)=p(x|y)p(y).

Die andere ist eine Formel zum Berechnen einer bedingten Wahrscheinlichkeitsdichtefunktion :

p(y|x)=p(x,y)p(x).

Der Satz von Bayes fügt nur diese beiden Dinge zusammen:

p(θ|x)=p(x,θ)p(x)=p(x|θ)p(θ)p(x)

Somit sind sowohl die Daten x als auch die Parameter θ Zufallsvariablen mit gemeinsamem PDF

p(x,θ)=p(x|θ)p(θ),
und das zeigt sich im Zähler im Satz von Bayes. Wenn Sie also die Wahrscheinlichkeit als bedingte Wahrscheinlichkeitsdichte anstatt als FunktionL der Parameterschreiben, wird die grundlegende Wahrscheinlichkeit im Spiel deutlich.

Das alles gesagt, Sie werden sehen, dass die Leute entweder wie hier oder hier verwenden .

jcz
quelle
θp(x|θ)θL(θ)=p(x|θ)θ^MLE=argmaxL(θ)p(x|θ)xθθL()
8

Die Wahrscheinlichkeitsfunktion ist lediglich proportional zur in dem Sinne, dass Sie für eine Konstante (obwohl Sie beachten sollten, dass die Wahrscheinlichkeit eine Funktion ist des Parameters, nicht der Daten). Wenn Sie dies in Ihrem Ausdruck für den Bayes-Satz verwenden möchten, müssen Sie dieselbe Skalierungskonstante in den Nenner aufnehmen:Lx(θ)=kp(x|θ)k>0

p(θ|x)=Lx(θ)p(θ)kp(x)=Lx(θ)p(θ)Lx(θ)p(θ) dθLx(θ)p(θ).

Wenn Sie stattdessen die von Ihnen vorgeschlagene Formel verwenden, erhalten Sie einen Kern der posterioren Dichte, der sich jedoch möglicherweise nicht in einen integrieren lässt (und daher im Allgemeinen keine Dichte darstellt).

Ben - Monica wieder einsetzen
quelle
2
Ich mag Ihre Antwort, aber in der ursprünglichen Formel wobei fest ist (Bayes'scher Kontext), ist dies auch keine gültige Wahrscheinlichkeitsverteilung , und ist auch ein Skalierungsfaktor ungleich 1. Also, warum Denken Sie, dass in Ihrer Erklärung keine Einheit ist? p(x|θ)xp(x)k
Garej
1
Sehr oft formulieren wir die Wahrscheinlichkeitsfunktion, indem wir multiplikative Teile entfernen, die nicht von dem interessierenden Parameter abhängen. Wir tun dies, um die Analyse zu vereinfachen, indem wir vermeiden müssen, eine konstante Integration im Auge zu behalten. Wenn zum Beispiel dann würden wir , Entfernen des Binomialkoeffizienten in der Binomialverteilung. In diesem Fall haben wir , was im Allgemeinen nicht gleich eins ist. L x ( θ ) = θ x ( 1 - θ ) n - x k = ( np(x|θ)=Bin(x|n,θ)Lx(θ)=θx(1θ)nxk=(nx)
Ben - Reinstate Monica
1
Ihr Punkt ist also, dass es eine Konvention gibt, dass die Wahrscheinlichkeit normalerweise frei von unnötigen Konstanten ist und die Version von iot für Statistiker etwas irreführend sein könnte?
Garej
Während dies in der Tat ein herkömmlicher Weg ist, um die Wahrscheinlichkeit einzustellen, ist der Punkt hier, dass die Wahrscheinlichkeitsfunktion im Allgemeinen nur bis zur Proportionalität definiert ist, so dass es keine Garantie gibt, dass in der obigen Arbeit ist. k=1
Ben - Reinstate Monica
Es ist das erste Mal, dass ich lese, dass die Wahrscheinlichkeit proportional zu einer Dichte ist. Für mich ist das nur eine Strecke und möglicherweise falsch. Das Problem liegt in der überlappenden Terminologie. Wir sollten eine Dichte nach der Bayes-Regel nicht als Wahrscheinlichkeit bezeichnen, aber wir machen das weiter.
nbro