Warum erfolgt die Probenahme aus der posterioren prädiktiven Verteilung?

7

In einem Bayes'schen Modell wird die posteriore Vorhersageverteilung normalerweise wie folgt geschrieben:

p(xnewx1,xn)=- -p(xnewμ) p(μx1,xn)dμ

für einen mittleren Parameter . Dann, in den meisten Büchern, wie diesem Link:μ

Probenahme MCMC

Es wird behauptet, dass es oft einfacher ist, mit Monte-Carlo-Methoden aus abzutasten. Im Allgemeinen lautet der Algorithmus:p(xnewx1,xn)

für :j=1J.

1) Probe aus dannμ jp(μx1,xn)

2) Probiere aus .x jp(xnewμ j)

Dann ist ein iid-Beispiel aus .x 1,,x J.p(xnewx1,xn)

Was mich verwirrt, ist die Gültigkeit dieser Technik. Mein Verständnis ist, dass Monte-Carlo-Ansätze das Integral approximieren. Warum bilden in diesem Fall die jeweils eine Stichprobe aus ?x jp(xnewx1,xn)

Warum wird der Durchschnitt aller dieser Stichproben nicht stattdessen als ? Ich gehe davon aus, dass ich eine endliche Partition erstelle, um das obige Integral zu approximieren. Vermisse ich etwas Vielen Dank!p(xnewx1,xn)

user1398057
quelle

Antworten:

8

Was Sie tatsächlich mit dem von Ihnen beschriebenen zweistufigen Prozess tun, ist das Abtasten aus der gemeinsamen Verteilung und das Ignorieren der abgetasteten Werte von . Es ist nicht ganz intuitiv, aber wenn Sie die abgetasteten Werte von ignorieren , integrieren Sie darüber.p(xnew,μ|x1,,xn)μμ

Ein einfaches Beispiel kann dies verdeutlichen. Betrachten Sie die Abtastung von , einheitlich über und , einheitlich über . Sie sollten intuitiv sehen können, wie aussehen wird. Wir konstruieren einen einfachen, schrecklich ineffizienten R-Code (der für Expository-Zwecke auf diese Weise geschrieben wurde), um die Beispiele zu generieren:pX.(x|y)=1/.yich(0,y)(0,y)pY.(y)=1(0,1)01pX.(x|y)pY.(y)dy

samples <- data.frame(y=rep(0,10000), x=rep(0,10000))
for (i in 1:nrow(samples)) {
   samples$y[i] <- runif(1)
   samples$x[i] <- runif(1, 0, samples$y[i])
}
hist(samples$x)

samplesist eindeutig eine Zufallsstichprobe aus der gemeinsamen Verteilung von und . Wir ignorieren die Werte und erstellen ein Histogramm nur der Werte, das wie folgt aussieht:xyyx

Geben Sie hier die Bildbeschreibung ein

was hoffentlich zu Ihrer Intuition passt.

Wenn Sie sorgfältig darüber nachdenken, werden Sie feststellen, dass die Stichproben von nicht von einem bestimmten Wert von abhängen . Stattdessen hängen sie (gemeinsam) von einer Stichprobe von Werten von . Aus diesem Grund entspricht das Ignorieren der Werte der Integration von , zumindest aus der Perspektive der Zufallszahlengenerierung.xyyyy

Überlegen Sie sich andererseits, was passiert, wenn Sie durchschnittlich sind. Sie erhalten nur eine Zahl aus Ihrem Monte-Carlo-Lauf, nämlich den Durchschnitt der -Stichproben. Dies ist nicht das, was Sie wollen (in Ihrem Fall)!xnew

Jbowman
quelle
3
Vielen Dank für Ihren Beitrag. Wissen Sie, ob es eine mathematisch strenge Möglichkeit gibt, darüber nachzudenken?
user1398057
0

Ich denke, Sie müssen definitiv die abgetasteten Werte irgendwann übermischen. Es gibt auch Vorlesungsunterlagen von Peter Hoff zum Thema "Einführung in die Bayes'sche Statistik für die Sozialwissenschaften". Andernfalls hätten Sie die vom hinteren Teil empfangenen Massen nicht berücksichtigt. Sie erstellen also die empirische Verteilung Ihrer Stichprobenwerte x ^ {* j} und nehmen dann erneut eine Stichprobe aus dieser Verteilung.

Als Beispiel: Wenn Ihr posterior diskret war (nur Punktmassen auf Atomen), nehmen einige Ihrer Parameterproben dieselben Werte an. Wenn Sie sie schließlich übermischen, berücksichtigen Sie, "wie oft" solche Parameter aus dem Seitenzahnbereich hervorgegangen sind - anders ausgedrückt, wie wahrscheinlich es ist. Dann ergibt eine Mittelung gemäß diesen Erscheinungen die hintere Vorhersage, die angemessen sein sollte. Dies gilt auch für das obige Verfahren mit dem eventuellen Mischen, zumindest wenn die Probengröße (n) groß ist (sind).

KOT
quelle
0

Ich denke, dass die vorhandenen Antworten, die sehr gut sind, durch ein Beispiel mit diskreten Zufallsvariablen erweitert werden könnten. Wir haben

p(xnewx1,xn)=- -p(xnew,μx1,xn)dμ=- -p(xnewμ) p(μx1,xn)dμ

Betrachten Sie zur Vereinfachung a μ das ist binär: p(μ=1x1xn)=p und p(μ=0x1xn)=1- -p. Nehmen wir weiter anxnew ist binär mit p(X.=1)=μ- -1 und p(X.=0)=μ. Ich werde diese Wahrscheinlichkeiten in Zukunft nicht mehr verwenden, aber Sie können das sehenxnew kommt drauf an μ.

Nehmen wir an, wir ziehen dann 14 Proben mit μp(μx1,,xn) und xnewp(xnewμ). Wir bekommen folgendes. Wie von @jbowman erwähnt, probieren wir tatsächlich ausp(xnew,μx1xn).

    mu    x_new
1.  1       0
2.  1       1
3.  0       0
4.  1       1
5.  0       0
6.  0       0
7.  0       0
8.  1       1
9.  1       1
10. 0       1
11. 1       0
12. 1       1
13. 0       1
14. 1       1

Wir können die Tatsache veranschaulichen, dass wir Proben aus dem Gelenk entnehmen p(xnew,μx1,,xn) expliziter, indem zuerst eine Zählertabelle erstellt wird.

        x_new
        0    1    
      ----------- 

   0    6    1
mu 
   1    2    5

Teilen Sie jeden Eintrag durch die Summe (6 + 1 + 2 + 5 = 14)

        x_new
        0    1    
      ----------- 

   0    0.43    0.07
mu 
   1    0.14    0.36

Welches ist die empirische gemeinsame Verteilung. ZB unsere Schätzung vonp(xnew=0,μ=0)=.43. Daher hat uns unser Probenahmeverfahren die Verbindung gegeben.

Schließlich werden wir sehen, warum es tatsächlich notwendig ist, das Integral zu "bewerten" (obwohl das Integral nicht gemittelt wird). Dies ist implizit in der Antwort von @ jbowman enthalten, als sie sagten

Es ist nicht ganz intuitiv, aber wenn Sie die abgetasteten Werte von 𝜇 ignorieren, integrieren Sie darüber.

Erhalten p(xnewx1xn), wir summieren einfach über Zeilen.

        x_new
        0    1    
      ----------- 

       .57  .43

Dies ist impliziert, indem "die abgetasteten Werte von ignoriert werden"μ"und dies ist der Marginalisierungsschritt. Eine andere Möglichkeit, dies üblicherweise zu tun, besteht darin, ein Histogramm zu erstellen (durch Summieren über Zeilen haben wir hier eine Art Histogramm erstellt).

Das Stichprobenverfahren gibt uns also keinen Rand - mit anderen Worten, es "funktioniert" nicht gemäß Ihrer Definition in der Frage. Vielmehr gibt es uns das Gelenk, und wir gemeinsam (durch Ignorierenμdurch Erstellen eines Histogramms oder durch Erhalten von Quantilen) marginalisieren μ.

user0
quelle