Warum ist im Bayes-Theorem ein Normalisierungsfaktor erforderlich?

20

Der Bayes-Satz

P(model|data)=P(model)×P(data|model)P(data)

Das ist alles in Ordnung. Aber ich habe irgendwo gelesen:

Grundsätzlich ist P (Daten) nichts anderes als eine Normalisierungskonstante, dh eine Konstante, die die posteriore Dichte zu eins integriert.

Wir wissen, dass und . 0 P ( Daten | Modell ) 10P(model)10P(data|model)1

Daher muss auch zwischen 0 und 1 liegen. Warum brauchen wir in einem solchen Fall eine Normalisierungskonstante, um den posterioren Teil in einen zu integrieren?P(model)×P(data|model)

Sreejith Ramakrishnan
quelle
4
Wenn Sie mit einer Wahrscheinlichkeit arbeiten Dichten , wie in diesem Beitrag erwähnte, können Sie nicht mehr schließen , 0 <= P(model) <= 1noch 0 <= P(data/model) <= 1, weil entweder (oder sogar beides!) Diejenigen überschreiten (und sogar unendlich sein). Siehe stats.stackexchange.com/questions/4220 . 1
whuber
1
Es ist nicht der Fall, dass da diese vage Schreibweise die integrierte Wahrscheinlichkeit der Daten darstellt, keine Wahrscheinlichkeit.
P(data|model)1
Xi'an

Antworten:

15

Erstens ist das Integral von "Wahrscheinlichkeit x vor" nicht unbedingt 1 .

Es ist nicht wahr, wenn:

0P(model)1 und0P(data|model)1

dann ist das Integral dieses Produkts in Bezug auf das Modell (in der Tat auf die Parameter des Modells) 1.

Demonstration. Stellen Sie sich zwei diskrete Dichten vor:

P(model)=[0.5,0.5] (this is called "prior")P(data | model)=[0.80,0.2] (this is called "likelihood")

Wenn Sie beide multiplizieren, erhalten Sie: was keine gültige Dichte ist, da sie nicht zu eins integriert wird: 0,40 + 0,25 = 0,65

[0.40,0.25]
0.40+0.25=0.65

Was sollen wir also tun, um das Integral zu zwingen, 1 zu sein? Verwenden Sie den Normalisierungsfaktor:

model_paramsP(model)P(data | model)=model_paramsP(model, data)=P(data)=0.65

(Entschuldigung für die schlechte Schreibweise. Ich habe drei verschiedene Ausdrücke für dieselbe Sache geschrieben, da Sie sie möglicherweise alle in der Literatur finden.)

Zweitens kann die "Wahrscheinlichkeit" irgendetwas sein, und selbst wenn es sich um eine Dichte handelt, kann sie Werte über 1 haben .

Wie @whuber sagte, müssen diese Faktoren nicht zwischen 0 und 1 liegen. Sie müssen das Integral (oder die Summe) 1 haben.

Drittens [extra] sind "Konjugate" Ihre Freunde, die Ihnen helfen, die Normalisierungskonstante zu finden .

Sie werden oft sehen: weil der fehlende Nenner leicht sein kann Holen Sie sich durch die Integration dieses Produkts. Beachten Sie, dass diese Integration ein bekanntes Ergebnis hat, wenn der Prior und die Wahrscheinlichkeit konjugiert sind .

P(model|data)P(data|model)P(model)
alberto
quelle
+1. Dies ist die einzige Antwort, die tatsächlich die ursprüngliche Frage beantwortet, warum die Normalisierungskonstante benötigt wird , um den posterioren Teil zu einem zu integrieren . Was Sie später mit dem Posterior machen (z. B. MCMC-Inferenz oder Berechnung der absoluten Wahrscheinlichkeiten), ist eine andere Sache.
Pedro Mediano
P(mOdel)=[0,5,0,5]σ2=1μP(μ)=[0,5,0,5]
μ
12

Die kurze Antwort auf Ihre Frage lautet, dass der Ausdruck auf der rechten Seite ohne Nenner lediglich eine Wahrscheinlichkeit ist , keine Wahrscheinlichkeit , die nur von 0 bis 1 reichen kann das Eintreten eines Ereignisses und nicht nur die relative Wahrscheinlichkeit dieses Ereignisses im Vergleich zu einem anderen.

Heropup
quelle
8

Sie haben bereits zwei gültige Antworten erhalten, aber lassen Sie mich meine zwei Cent hinzufügen.

Der Bayes-Satz wird häufig definiert als:

P(Modell- | Daten)P(Modell-)×P(Daten | Modell-)

weil der einzige Grund, warum Sie die Konstante brauchen, ist, dass sie zu 1 integriert wird (siehe die Antworten von anderen). Dies ist in den meisten MCMC-Simulationsansätzen für die Bayes'sche Analyse nicht erforderlich, und daher wird die Konstante aus der Gleichung gestrichen. Für die meisten Simulationen ist es also nicht einmal erforderlich.

Ich liebe die Beschreibung von Kruschke : Der letzte Welpe (konstant) ist müde, weil er in der Formel nichts zu tun hat.

Bildbeschreibung hier eingeben

Auch einige, wie Andrew Gelman, betrachten die Konstante als "überbewertet" und "im Grunde genommen bedeutungslos, wenn Leute flache Prioritäten verwenden" (siehe die Diskussion hier ).

Tim
quelle
9
+1 zur Einführung von Welpen. "Beim Schreiben dieser Antwort wurden keine Tiere verletzt" :)
alberto