Ein Prior für einen Parameter hat fast immer eine bestimmte funktionale Form (in Bezug auf die Dichte im Allgemeinen geschrieben). Angenommen, wir beschränken uns auf eine bestimmte Familie von Distributionen. In diesem Fall reduziert sich die Auswahl unseres Prior auf die Auswahl der Parameter dieser Familie.
Man betrachte zum Beispiel ein normales Modell Yi∼iidN(μ,σ2) . Nehmen wir der Einfachheit halber auch σ2 als bekannt an. Dieser Teil des Modells - das Modell für die Daten - bestimmt die Wahrscheinlichkeitsfunktion.
Um unser Bayes'sches Modell zu vervollständigen, benötigen wir hier einen Prior für μ .
Wie oben erwähnt, können wir häufig eine Verteilungsfamilie für unseren Prior für μ angebenμ und dann müssen wir nur die Parameter dieser Verteilung auswählen (zum Beispiel können häufig vorherige Informationen ziemlich vage sein - wie etwa, wo wir die Wahrscheinlichkeit der Konzentration haben möchten - statt einer sehr spezifischen funktionalen Form, und wir haben möglicherweise genug Freiheit, um zu modellieren, was wir wollen, indem wir die Parameter auswählen (zum Beispiel um einen früheren Mittelwert und eine Varianz abzugleichen).
Wenn sich herausstellt, dass der hintere Teil für μ aus derselben Familie wie der vorherige stammt, wird dieser vorherige als "konjugiert" bezeichnet.
(Was es konjugiert, ist die Art und Weise, wie es sich mit der Wahrscheinlichkeit verbindet.)
Nehmen wir also in diesem Fall einen Gaußschen Prior für μ (sagen wir μ∼N(θ,τ2) ). Wenn wir das tun, sehen wir, dass der hintere Teil für μ ebenfalls Gauß ist. Folglich war der Gaußsche Prior ein konjugierter Prior für unser vorstehendes Modell.
Das ist wirklich alles - wenn der hintere Teil aus derselben Familie wie der vorherige stammt, ist es ein konjugierter Prior.
In einfachen Fällen können Sie ein Konjugat vor der Prüfung der Wahrscheinlichkeit identifizieren. Betrachten Sie beispielsweise eine Binomialwahrscheinlichkeit. Wenn man die Konstanten weglässt, sieht es aus wie eine Beta-Dichte in p ; und aufgrund der Art und Weise, wie sich Potenzen von p und (1−p) verbinden, multipliziert es sich mit einem Beta, bevor sich auch ein Produkt der Potenzen von p und (1−p) ergibt Die Beta ist ein Konjugat vor p in der Binomialwahrscheinlichkeit.
Im Gaußschen Fall ist es am einfachsten zu erkennen, dass dies geschieht, wenn man die Log-Dichten und die Log-Wahrscheinlichkeit berücksichtigt. Die log-Wahrscheinlichkeit wird quadratisch in und die Summe von zwei Quadratischen ist quadratisch, so dass eine quadratische log-prior + quadratische log-Wahrscheinlichkeit einen quadratischen posterior ergibt (jeder der Koeffizienten des Terms höchster Ordnung wird natürlich negativ sein).μ
Ich benutze gerne den Begriff "Kernel" einer Distribution. Hier belassen Sie nur die Teile, die vom Parameter abhängen. Ein paar einfache Beispiele.
Beta kernelp(θ|a,b)=K−1×θa(1−θ)b
Where K=∫θa(1−θ)bdθ=Beta(a+1,b+1)
When we look at the likelihood function, we can do the same thing, and express it in "kernel form". For example with iid data
For some constantQ and some function f(μ) . If we can recognise this function as a kernel, then we can create a conjugate prior for that likelihood.
If we take the normal likelihood with unit variance, the above looks like
p(D|μ)=∏i=1np(xi|μ)=∏i=1n12π−−√exp(−(xi−μ)22)=[∏i=1n12π−−√]×∏i=1nexp(−(xi−μ)22)=(2π)−n2×exp(−∑i=1n(xi−μ)22)=(2π)−n2×exp(−∑i=1nx2i−2xiμ+μ22)=(2π)−n2×exp(−∑i=1nx2i2)×exp(μ∑i=1nxi−μ2n2)=Q×exp(aμ2+bμ)
wherea=−n2 and b=∑ni=1xi and Q=(2π)−n2×exp(−∑ni=1x2i2)
This likelihood function has the same kernel as the normal distribution forμ , so a conjugate prior for this likelihood is also the normal distribution.
p(μ|a0,b0)=K−10exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)∝K−10exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K−10×Q×exp([a+a0]μ2+[b+b0]μ)∝exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.
In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.
quelle
For a given distribution familyDlik of the likelihood (e.g. Bernoulli),
if the prior is of the same distribution familyDpri as the posterior (e.g. Beta),
thenDpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.
Note:p(θ|x)posterior∼p(x|θ)likelihood⋅p(θ)prior
quelle