Was Sie tatsächlich mit dem von Ihnen beschriebenen zweistufigen Prozess tun, ist das Abtasten aus der gemeinsamen Verteilung und das Ignorieren der abgetasteten Werte von . Es ist nicht ganz intuitiv, aber wenn Sie die abgetasteten Werte von ignorieren , integrieren Sie darüber.p (xn e w, μ|x1, … ,xn)μμ
Ein einfaches Beispiel kann dies verdeutlichen. Betrachten Sie die Abtastung von , einheitlich über und , einheitlich über . Sie sollten intuitiv sehen können, wie aussehen wird. Wir konstruieren einen einfachen, schrecklich ineffizienten R-Code (der für Expository-Zwecke auf diese Weise geschrieben wurde), um die Beispiele zu generieren:pX.( x|y) = 1 / yIch ( 0 , y)( 0 , y)pY.( y) = 1( 0 , 1 )∫10pX.( x|y)pY.( y) dy
samples <- data.frame(y=rep(0,10000), x=rep(0,10000))
for (i in 1:nrow(samples)) {
samples$y[i] <- runif(1)
samples$x[i] <- runif(1, 0, samples$y[i])
}
hist(samples$x)
samples
ist eindeutig eine Zufallsstichprobe aus der gemeinsamen Verteilung von und . Wir ignorieren die Werte und erstellen ein Histogramm nur der Werte, das wie folgt aussieht:xyyx
was hoffentlich zu Ihrer Intuition passt.
Wenn Sie sorgfältig darüber nachdenken, werden Sie feststellen, dass die Stichproben von nicht von einem bestimmten Wert von abhängen . Stattdessen hängen sie (gemeinsam) von einer Stichprobe von Werten von . Aus diesem Grund entspricht das Ignorieren der Werte der Integration von , zumindest aus der Perspektive der Zufallszahlengenerierung.xyyyy
Überlegen Sie sich andererseits, was passiert, wenn Sie durchschnittlich sind. Sie erhalten nur eine Zahl aus Ihrem Monte-Carlo-Lauf, nämlich den Durchschnitt der -Stichproben. Dies ist nicht das, was Sie wollen (in Ihrem Fall)!xn e w
Ich denke, Sie müssen definitiv die abgetasteten Werte irgendwann übermischen. Es gibt auch Vorlesungsunterlagen von Peter Hoff zum Thema "Einführung in die Bayes'sche Statistik für die Sozialwissenschaften". Andernfalls hätten Sie die vom hinteren Teil empfangenen Massen nicht berücksichtigt. Sie erstellen also die empirische Verteilung Ihrer Stichprobenwerte x ^ {* j} und nehmen dann erneut eine Stichprobe aus dieser Verteilung.
Als Beispiel: Wenn Ihr posterior diskret war (nur Punktmassen auf Atomen), nehmen einige Ihrer Parameterproben dieselben Werte an. Wenn Sie sie schließlich übermischen, berücksichtigen Sie, "wie oft" solche Parameter aus dem Seitenzahnbereich hervorgegangen sind - anders ausgedrückt, wie wahrscheinlich es ist. Dann ergibt eine Mittelung gemäß diesen Erscheinungen die hintere Vorhersage, die angemessen sein sollte. Dies gilt auch für das obige Verfahren mit dem eventuellen Mischen, zumindest wenn die Probengröße (n) groß ist (sind).
quelle
Ich denke, dass die vorhandenen Antworten, die sehr gut sind, durch ein Beispiel mit diskreten Zufallsvariablen erweitert werden könnten. Wir habenp (xn e w∣x1, …xn) =∫∞- ∞p (xn e w, μ ∣x1, …xn) dμ =∫∞- ∞p (xn e w∣ μ ) p ( μ ∣ x1, …xn) dμ
Betrachten Sie zur Vereinfachung aμ das ist binär: p ( μ = 1 ∣x1…xn) = p und p ( μ = 0 ∣x1…xn) = 1 - p . Nehmen wir weiter anxn e w ist binär mit p ( X.= 1 ) = μ - 1 und p ( X.= 0 ) = μ . Ich werde diese Wahrscheinlichkeiten in Zukunft nicht mehr verwenden, aber Sie können das sehenxn e w kommt drauf an μ .
Nehmen wir an, wir ziehen dann 14 Proben mitμ ∼ p ( μ ∣x1, … ,xn) und xn e w∼ p (xn e w∣ μ ) . Wir bekommen folgendes. Wie von @jbowman erwähnt, probieren wir tatsächlich ausp (xn e w, μ ∣x1…xn) .
Wir können die Tatsache veranschaulichen, dass wir Proben aus dem Gelenk entnehmenp (xn e w, μ ∣x1, … ,xn) expliziter, indem zuerst eine Zählertabelle erstellt wird.
Teilen Sie jeden Eintrag durch die Summe (6 + 1 + 2 + 5 = 14)
Welches ist die empirische gemeinsame Verteilung. ZB unsere Schätzung vonp (xn e w= 0 , μ = 0 ) = 0,43 . Daher hat uns unser Probenahmeverfahren die Verbindung gegeben.
Schließlich werden wir sehen, warum es tatsächlich notwendig ist, das Integral zu "bewerten" (obwohl das Integral nicht gemittelt wird). Dies ist implizit in der Antwort von @ jbowman enthalten, als sie sagten
Erhaltenp (xn e w∣x1…xn) , wir summieren einfach über Zeilen.
Dies ist impliziert, indem "die abgetasteten Werte von ignoriert werden"μ "und dies ist der Marginalisierungsschritt. Eine andere Möglichkeit, dies üblicherweise zu tun, besteht darin, ein Histogramm zu erstellen (durch Summieren über Zeilen haben wir hier eine Art Histogramm erstellt).
Das Stichprobenverfahren gibt uns also keinen Rand - mit anderen Worten, es "funktioniert" nicht gemäß Ihrer Definition in der Frage. Vielmehr gibt es uns das Gelenk, und wir gemeinsam (durch Ignorierenμ durch Erstellen eines Histogramms oder durch Erhalten von Quantilen) marginalisieren μ .
quelle