Posterior sehr unterschiedlich zu Prior und Likelihood

21

Wenn der Prior und die Wahrscheinlichkeit sehr unterschiedlich sind, tritt manchmal eine Situation auf, in der der Posterior keinem von beiden ähnlich ist. Siehe zum Beispiel dieses Bild, das Normalverteilungen verwendet.

Hinteres Verhalten

Obwohl dies mathematisch korrekt ist, scheint es nicht mit meiner Intuition übereinzustimmen - wenn die Daten nicht mit meinen stark vertretenen Überzeugungen oder den Daten übereinstimmen, würde ich erwarten, dass keiner der beiden Bereiche gut abschneidet und dass entweder ein flacher posteriorer Over erwartet wird der ganze bereich oder vielleicht eine bimodale verteilung um die priorität und wahrscheinlichkeit (ich bin mir nicht sicher, was logischer ist). Ich würde auf keinen Fall einen engen posterioren Bereich erwarten, der weder meinen vorherigen Überzeugungen noch den Daten entspricht. Ich verstehe, wenn mehr Daten gesammelt werden, bewegt sich der Posterior in Richtung der Wahrscheinlichkeit, aber in dieser Situation scheint es nicht intuitiv zu sein.

Meine Frage ist: Wie ist mein Verständnis dieser Situation fehlerhaft (oder ist es fehlerhaft). Ist der posterior die "richtige" Funktion für diese Situation? Und wenn nicht, wie könnte es sonst modelliert werden?

Der Vollständigkeit halber wird der Prior als und die Wahrscheinlichkeit als . $\mathcal{N}(\mu=1.5, \sigma=0.4)$ $\mathcal{N}(\mu=6.1, \sigma=0.4)$

EDIT: Wenn ich einige der gegebenen Antworten betrachte, habe ich das Gefühl, dass ich die Situation nicht sehr gut erklärt habe. Mein Punkt war, dass die Bayes'sche Analyse angesichts der Annahmen im Modell ein nicht intuitives Ergebnis zu liefern scheint . Ich hoffte, dass der Posterior vielleicht schlechte Modellierungsentscheidungen "erklären" würde, was beim Nachdenken definitiv nicht der Fall ist. Ich werde in meiner Antwort darauf eingehen.

bayesian prior posterior likelihood Rónán Daly
quelle

2

Das würde dann einfach bedeuten, dass Sie keine Normalität des Seitenzahns annehmen können. Wenn Sie davon ausgehen, dass der hintere Teil normal ist, ist dies in der Tat richtig.

PascalVKooten

Ich habe keine Vermutung über den Seitenzahn getroffen, nur über den Prior und die Wahrscheinlichkeit. Und auf jeden Fall scheint die Form der Verteilung hier irrelevant - ich hätte sie manuell zeichnen können und derselbe Posterior würde folgen.

Rónán Daly

Ich sage nur, dass Sie Ihren Glauben an diesen Seitenzahn ablegen würden, wenn Sie nicht davon ausgehen, dass der Seitenzahn normal sein kann. Unter Berücksichtigung normaler früherer und normaler Daten wäre ein normaler späterer Patient in der Tat so. Stellen Sie sich vielleicht kleine Daten vor, so etwas könnte dann tatsächlich in der Realität vorkommen.

PascalVKooten

1

Ist diese Zahl korrekt? Es scheint, dass die Wahrscheinlichkeit

Prior sehr nahe bei 0 liegen sollte, da sie sich nie überlappen. Ich habe Probleme zu sehen, wie Ihr posterior dorthin spähen kann, da das Gewicht des Prior dort sehr nahe bei 0 liegt. Vermisse ich etwas?

\times

$\times$

Luca

1

@Luca Du vergisst die Normalisierung. Das Produkt aus dem Stand und der Wahrscheinlichkeit ist nahe Null, ja - aber wenn Sie es erneut normalisieren, sodass es wieder auf 1 integriert wird, ist dies irrelevant.

Pat

5

Ja, diese Situation kann auftreten und ist ein Merkmal Ihrer Modellannahmen, insbesondere der Normalität im Vorgänger- und Stichprobenmodell (Wahrscheinlichkeit). Wenn Sie stattdessen eine Cauchy-Distribution für Ihren Prior gewählt hätten, würde der hintere Teil ganz anders aussehen.

prior = function(x) dcauchy(x, 1.5, 0.4)
like = function(x) dnorm(x,6.1,.4)

# Posterior
propto = function(x) prior(x)*like(x)
d = integrate(propto, -Inf, Inf)
post = function(x) propto(x)/d$value

# Plot
par(mar=c(0,0,0,0)+.1, lwd=2)
curve(like, 0, 8, col="red", axes=F, frame=T)
curve(prior, add=TRUE, col="blue")
curve(post, add=TRUE, col="seagreen")
legend("bottomleft", c("Prior","Likelihood","Posterior"), col=c("blue","red","seagreen"), lty=1, bg="white")

Cauchy vor dem normalen Stichprobenmodell

jaradniemi
quelle

Vielen Dank für Ihre Antwort @jaradniemi, würden Sie denken, dass ein Cauchy-Prior immer die in der Frage angegebene besondere Situation vermeiden würde?

Rónán Daly

1

Ja. In der Regel können die Daten bei stark eingeschränkten Prioritäten den Prior leichter überwältigen.

Jaradniemi

2

jaradniemi, das mag sein, aber wenn Sie sagen, dass Sie nicht möchten, dass Ihre Vorerkrankung den posterior beeinflusst, warum wählen Sie dann überhaupt eine informative Vorerkrankung? Es scheint, als würden Sie vorschlagen, einen Cauchy zu wählen, weil er informativ aussieht, aber tatsächlich nicht.

Florian Hartig

1

Wenn der Prior und die Wahrscheinlichkeit übereinstimmen, erhalten Sie die gewünschte Genauigkeitssteigerung vom Prior zum Posterior und somit ist der Prior informativ. Wenn Sie sich für einen Prior mit starkem Schwanz entscheiden, kann dies jedoch dazu führen, dass der Prior leicht überfordert wird, wenn die beiden sich nicht einig sind.

Jaradniemi

2

Ich bin mit den bisherigen Antworten einigermaßen nicht einverstanden - an dieser Situation ist nichts Seltsames. Die Wahrscheinlichkeit ist sowieso asymptotisch normal, und ein normaler Prior ist überhaupt nicht ungewöhnlich. Wenn Sie beide zusammenfassen, haben wir die Situation, von der wir hier sprechen, mit der Tatsache, dass Prior und Likelihood nicht die gleiche Antwort geben. Ich habe das unten mit dem Code von jaradniemi dargestellt.

Wir erwähnen in 1, dass die normale Schlussfolgerung einer solchen Beobachtung wäre, dass entweder a) das Modell strukturell falsch ist, b) die Daten falsch sind, c) das Vorherige falsch ist. Aber mit Sicherheit stimmt etwas nicht, und das würden Sie auch sehen, wenn Sie einige nachträgliche Vorhersagetests durchführen würden, die Sie sowieso durchführen sollten.

1 Hartig, F .; Dyke, J .; Hickler, T .; Higgins, SI; O'Hara, RB; Scheiter, S. & Huth, A. (2012) Dynamische Vegetationsmodelle mit Daten verbinden - eine umgekehrte Perspektive. J. Biogeogr., 39, 2240 & ndash; 225. http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2699.2012.02745.x/abstract

prior = function(x) dnorm(x,1,.3)
like = function(x) dnorm(x,-1,.3)

# Posterior
propto = function(x) prior(x)*like(x)
d = integrate(propto, -Inf, Inf)
post = function(x) propto(x)/d$value

# Plot
par(mar=c(0,0,0,0)+.1, lwd=2)
curve(like, -2, 2, col="red", axes=F, frame=T, ylim = c(0,2))
curve(prior, add=TRUE, col="blue")
curve(post, add=TRUE, col="seagreen")
legend("bottomleft", c("Prior","Likelihood","Posterior"), col=c("blue","red","seagreen"), lty=1, bg="white")

Florian Hartig
quelle

2

Ich denke, die Antwort, nach der ich gesucht habe, wenn es um diese Frage geht, lässt sich am besten mit Lesaffre und Lawson in Bayesian Biostatistics zusammenfassen

Die hintere Genauigkeit ist die Summe aus der vorherigen und der Probengenauigkeit, dh:
$\frac{1}{σ^{2}} = w_{0} + w_{1}$ $\frac{1}{\sigma^2} = w_{0} + w_{1}$ $\mu$ $\sigma$

Was dies für mich zusammenfasst und in den anderen Antworten grob umrissen wird, ist, dass der Fall der Modellierung normaler Priors mit einer normalen Wahrscheinlichkeit zu einer Situation führen kann, in der der Seitenzahn präziser ist als beide. Dies ist nicht intuitiv, ist jedoch eine besondere Folge der Modellierung dieser Elemente auf diese Weise.

AWP
quelle

Dies verallgemeinert sich mit der Fisher-Matrix in einer höheren Dimension. Der Hessische Wert für die logarithmische Wahrscheinlichkeit der posterioren Verteilung in der Nähe ihres Höhepunkts ist die Summe aus der vorherigen und der wahrscheinlichen inversen Kovarianz. Die Umkehrung dieser Summe ist die Kovarianz des posterioren. Da zwei positive (semi) definite Matrizen (inverse Kovarianzen) addiert werden, ist mathematisch garantiert, dass die Präzision des Seitenzahns die der vorherigen oder der Wahrscheinlichkeitswahrscheinlichkeitsverteilungen übersteigt. Dies ist ein universelles Ergebnis im Bayes'schen Rahmen.

T3am5hark

2

$X_1$ $X_0$ $\mu \sim N(1.6, 0.4^2)$ $X_1 \sim N(\mu, 0.4^2)$ $X_1$ $X_1$ $\sqrt{0.4^2 + 0.4^2}=0.56$ $2\phi(-(6.1-1.6)/0.56)=9.3\cdot 10^{-16}$ $\mu$

$X_0 \sim N(\mu,0.4^2)$ $X_0$ $X_0$ $X_1$ $|X_1-X_0|>6.1-1.6$

$X_0$ $X_1$

Jarle Tufto
quelle

1

Nachdem ich eine Weile darüber nachgedacht habe, bin ich zu dem Schluss gekommen, dass bei schlechten Modellannahmen der hintere Teil ein Ergebnis sein kann, das weder mit früheren Überzeugungen noch mit der Wahrscheinlichkeit übereinstimmt. Daraus das natürliche Ergebnis ist das die hintere ist nicht im Allgemeinen das Ende der Analyse. Wenn es der Fall ist, dass der Posterior ungefähr zu den Daten passt oder dass es (in diesem Fall) diffus zwischen Prior und Likelihood sein sollte, dann müsste dies nachträglich überprüft werden, wahrscheinlich mit einem Posterior-Predictive-Check oder so ähnlich. Um dies in das Modell zu integrieren, scheint es erforderlich zu sein, Wahrscheinlichkeitsaussagen zuzuordnen, was ich nicht für möglich halte.

Rónán Daly
quelle

Ja, ich stimme zu, siehe meine detailliertere Antwort

Florian Hartig

0

Ich denke, das ist eine wirklich interessante Frage. Nachdem ich darauf geschlafen habe, denke ich, ich habe einen Stich auf eine Antwort. Das Hauptproblem ist wie folgt:

Sie haben die Wahrscheinlichkeit als Gauß-PDF behandelt. Aber es ist keine Wahrscheinlichkeitsverteilung - es ist eine Wahrscheinlichkeit! Außerdem haben Sie Ihre Achse nicht eindeutig beschriftet. Diese Dinge zusammen haben alles, was folgt, verwirrt.

$\mu$ $\sigma$ $P(\mu|\mu', \sigma')$ $\mu'$ $\sigma'$ $P(X|\mu, \sigma)$ $X$ $P(\mu|X, \sigma, \mu', \sigma')$ $\mu$

$\mu$ $P(X|\mu)$

P (μ | μ^{'}, σ^{'}) = e x p (- \frac{(μ - μ^{'})^{2}}{2 σ^{' 2}}) \frac{1}{\sqrt{2 π σ^{' 2}}}

$P(\mu|\mu', \sigma') = exp(-\frac{(\mu-\mu')^2}{2 \sigma'^2})\frac{1}{\sqrt{2 \pi \sigma'^2}}$

P (X | μ, σ) = \prod_{ich = 1}^{N} e x p (- \frac{(x_{ich} - μ)^{2}}{2 σ^{2}}) \frac{1}{\sqrt{2 π σ^{2}}}

$P(X|\mu,\sigma) = \prod_{i=1}^N exp(-\frac{(x_i-\mu)^2}{2 \sigma^2})\frac{1}{\sqrt{2 \pi \sigma^2}}$

$\sigma'^2 = \sigma^2/N$ $\sigma^2$ $N$ $X$

Der Prior und die Wahrscheinlichkeit sind also gleichermaßen informativ. Warum ist der hintere nicht bimodal? Dies liegt an Ihren Modellannahmen. Sie haben implizit eine Normalverteilung in der Art und Weise angenommen, wie dies eingerichtet ist (normaler Prior, normale Wahrscheinlichkeit), und dies zwingt den Posterior dazu, eine unimodale Antwort zu geben. Dies ist nur eine Eigenschaft von Normalverteilungen, die Sie durch ihre Verwendung in das Problem eingearbeitet haben. Ein anderes Modell hätte dies nicht unbedingt getan. Ich habe das Gefühl (obwohl es im Moment keinen Beweis gibt), dass eine Cauchy-Verteilung eine multimodale Wahrscheinlichkeit haben kann und daher einen multimodalen posterioren.

Wir müssen also unimodal sein, und der Prior ist ebenso informativ wie die Wahrscheinlichkeit. Unter diesen Umständen scheint die vernünftigste Schätzung ein Punkt zu sein, der direkt zwischen der Wahrscheinlichkeit und dem Stand der Dinge liegt, da wir keine vernünftige Möglichkeit haben, zu sagen, an was wir glauben sollen. Aber warum wird der hintere Teil enger?

$\sigma$ $\mu$ $\sigma$ $\sigma$ $\sigma$ $\mu$

(Zur Veranschaulichung kann man sich vorstellen, den Mittelwert eines Gaußschen mit bekannter Varianz unter Verwendung von nur zwei Abtastpunkten zu schätzen. Wenn die beiden Abtastpunkte sehr viel weiter voneinander entfernt sind als die Breite des Gaußschen (dh, sie sind ausgegangen) Wenn Sie den Mittelwert nur geringfügig von dieser Position verschieben, sinkt die Wahrscheinlichkeit für die eine oder andere Stichprobe exponentiell.)

Zusammenfassend ist die Situation, die Sie beschrieben haben, etwas seltsam, und durch die Verwendung des Modells haben Sie einige Annahmen (z. B. Unimodalität) in das Problem einbezogen, die Sie nicht erkannt haben. Ansonsten ist die Schlussfolgerung richtig.

Klopfen
quelle

μ

$\mu$

σ

$\sigma$

σ

$\sigma$

μ

$\mu$

Posterior sehr unterschiedlich zu Prior und Likelihood

Antworten: