Rao-Blackwellization von Gibbs Sampler

Ich schätze derzeit ein stochastisches Volatilitätsmodell mit Markov-Ketten-Monte-Carlo-Methoden. Dabei implementiere ich Gibbs- und Metropolis-Stichprobenverfahren.

Angenommen, ich nehme eher den Mittelwert der posterioren Verteilung als eine Zufallsstichprobe daraus. Wird dies allgemein als Rao-Blackwellization bezeichnet ?

Insgesamt würde dies dazu führen, dass der Mittelwert über die Mittelwerte der posterioren Verteilungen als Parameterschätzung genommen wird.

mcmc monte-carlo gibbs point-estimation rao-blackwell mscnvrsy
quelle

Antworten:

Angenommen, ich nehme eher den Mittelwert der posterioren Verteilung als eine Zufallsstichprobe daraus. Wird dies allgemein als Rao-Blackwellization bezeichnet?

Ich bin mit stochastischen Volatilitätsmodellen nicht sehr vertraut, aber ich weiß, dass in den meisten Einstellungen der Grund, warum wir Gibbs- oder MH-Algorithmen wählen, um aus dem Posterior zu zeichnen, darin besteht, dass wir den Posterior nicht kennen. Oft möchten wir den posterioren Mittelwert schätzen, und da wir den posterioren Mittelwert nicht kennen, ziehen wir Proben aus dem posterioren und schätzen ihn anhand des Probenmittelwerts. Ich bin mir also nicht sicher, wie Sie den Mittelwert aus der posterioren Verteilung ziehen können.

Stattdessen hängt der Rao-Blackwellized-Schätzer von der Kenntnis des Mittelwerts der vollständigen Bedingung ab; Aber selbst dann ist noch eine Probenahme erforderlich. Ich erkläre weiter unten mehr.

Angenommen, die posteriore Verteilung wird für zwei Variablen definiert, ), so dass Sie den posterioren Mittelwert schätzen möchten: . Wenn nun ein Gibbs-Sampler verfügbar wäre, könnten Sie diesen ausführen oder einen MH-Algorithmus ausführen, um von hinten abzutasten. $\theta = (\mu, \phi$ $E[\theta \mid \text{data}]$

Wenn Sie einen Gibbs - Sampler laufen kann, dann wissen Sie , in geschlossener Form und kennen Sie den Mittelwert dieser Verteilung. Lassen Sie das Mittel sei . Man beachte , dass eine Funktion von und den Daten. $f(\phi \mid \mu, data)$ $\phi^*$ $\phi^*$ $\mu$

Dies bedeutet auch , dass Sie bei der Integration heraus kann aus dem hinteren, so dass der Rand posterior von ist (dies ist nicht vollständig bekannt, aber bis zu einem konstanten bekannt). Sie möchten nun eine Markov-Kette so ausführen, dass die invariante Verteilung ist, und Sie erhalten Proben von diesem marginalen posterioren Bereich. Die Frage ist $\phi$ $\mu$ $f(\mu \mid data)$ $f(\mu \mid data)$

Wie können Sie nun den posterioren Mittelwert von schätzen, indem Sie nur diese Proben aus dem marginalen posterioren von ? $\phi$ $\mu$

Dies erfolgt über Rao-Blackwellization.

\begin{aligned} E. [ϕ ∣ d ein t ein]] & = \int ϕ f (μ, ϕ ∣ d ein t ein) d μ d ϕ \\ = \int ϕ f (ϕ ∣ μ, d ein t ein) f (μ ∣ d ein t ein) d μ d ϕ \\ = \int ϕ^{*} f (μ ∣ d ein t ein) d μ . \end{aligned}

$\begin{align*} E[\phi \mid data]& = \int \phi \; f(\mu, \phi \mid data) d\mu \, d\phi\\ & = \int \phi \; f(\phi \mid \mu, data) f(\mu \mid data) d\mu \, d\phi\\ & = \int \phi^* f(\mu \mid data) d\mu. \end{align*}$

Nehmen wir also an, wir haben Proben vom Rand posterior von . Dann $X_1, X_2, \dots X_N$ $\mu$

\hat{ϕ} = \frac{1}{N.} \sum_{ich = 1}^{N.} ϕ^{*} ({X.}_{ich}),

$\hat{\phi} = \dfrac{1}{N} \sum_{i=1}^{N} \phi^*(X_i),$

wird als Rao-Blackwellized-Schätzer für . Das gleiche kann auch durch Simulation von den Gelenkrändern aus erfolgen. $\phi$

Beispiel (nur zur Demonstration).

Angenommen, Sie haben ein unbekanntes posteriores Gelenk für aus dem Sie eine Probe erstellen möchten. Ihre Daten sind einige , und Sie haben die folgenden vollständigen Bedingungen $\theta = (\mu, \phi)$ $y$

μ ∣ ϕ, y \sim N. (ϕ^{2} + 2 y, y^{2})

$\mu \mid \phi, y \sim N(\phi^2 + 2y, y^2)$

ϕ ∣ μ, y \sim G ein m m ein (2 μ + y, y + 1)

$\phi \mid \mu, y \sim Gamma(2\mu + y, y + 1)$

$f(\mu, \phi \mid y)$ $(\mu_1, \phi_1), (\mu_2, \phi_2), \dots, (\mu_N, \phi_N)$ $\phi$ $\phi$

E. [ϕ | μ, y]] = \frac{2 μ + y}{y + 1} = ϕ^{*} .

$E[\phi | \mu, y] = \dfrac{2 \mu + y}{y + 1} = \phi^*.$

$y$

\hat{ϕ} = \frac{1}{N.} \sum_{ich = 1}^{N.} \frac{2 μ_{ich} + y}{y + 1} .

$\hat{\phi} = \dfrac{1}{N} \sum_{i=1}^{N} \dfrac{2 \mu_i + y}{y + 1}.$

$\phi$ $\phi$ $\mu$

Greenparker
quelle

Unter der Annahme, dass die posteriore Verteilung des Parameters bekannt ist (was meines Wissens bei der Anwendung der Gibbs-Stichprobe der Fall ist), wäre es der Rao-Blackwellized-Schätzer, den Mittelwert der Verteilung anstelle einer Zufallsstichprobe zu verwenden. Ich hoffe ich habe deine Antwort richtig verstanden. Vielen Dank schon!

mscnvrsy

f (μ, ϕ ∣ d a t a)

$f(\mu, \phi \mid data)$

f (μ ∣ ϕ, d a t a)

$f(\mu \mid \phi, data)$

f (ϕ ∣ μ, d a t a)

$f(\phi \mid \mu, data)$

μ

$\mu$

ϕ^{*}

$\phi^*$

@mscnvrsy Ich habe ein Beispiel hinzugefügt, um zu helfen

Greenparker

Wow, vielen Dank, dass Sie mir das klargestellt haben. Unter der Annahme, dass ich die vollständigen bedingten Verteilungen kenne, kann ich mit den theoretischen Mitteln der bedingten Verteilungen arbeiten und über diese theoretischen Mittelwerte (wie E [phi | mu, y]) mitteln, um den RB-Schätzer zu erhalten? Dies würde dann die Varianz meiner Parameterschätzungen minimieren?

mscnvrsy

Wenn Sie unabhängige Stichproben erhalten würden, würde dies die Varianz der Schätzer minimieren. Da es sich jedoch um Markov-Ketten handelt, ist allgemein bekannt, dass RB die Varianz nicht unbedingt verringert, und es gibt einige Fälle, in denen die Varianz sogar zunimmt. Dieses Papier von Charlie Geyer gab einige Beispiele zu diesem Punkt.

Greenparker

$\pi_2(\theta_2|y)$

\begin{array}{rcl} π_{2} (θ_{2} | y) & = & \int π (θ_{1}, θ_{2} | y) d θ_{1} \\ = & \int π_{2 | 1} (θ_{2} | θ_{1}, y) π_{1} (θ_{1} | y) d θ_{1} \\ = & E. (π_{2 | 1} (θ_{2} | θ_{1}, y)) \end{array}

$\begin{eqnarray*} \pi_2(\theta_2|y)&=&\int \pi(\theta_1,\theta_2|y)d\theta_1\\ &=&\int \pi_{2|1}(\theta_2|\theta_1,y)\pi_1(\theta_1|y)d\theta_1\\ &=&E(\pi_{2|1}(\theta_2|\theta_1,y)) \end{eqnarray*}$

θ_{2}

$\theta_2$

θ_{2}

$\theta_2$

θ_{2}

$\theta_2$

θ_{1}

$\theta_1$

θ_{2}

$\theta_2$

V. ein r (X.) = E. [V. ein r (X. | Y.)]] + V. ein r [E. (X. | Y.)]],

$Var(X)=E[Var(X|Y)]+Var[E(X|Y)],$

V a r (X | Y)

$Var(X|Y)$

E {(X - E (X | Y))^{2} | Y}

$E\left\{(X-E(X|Y))^2|Y\right\}$

V a r (E (X | Y)) = E [(E (X | Y) - E (X))^{2}]

$Var(E(X|Y))=E\left[(E(X|Y)-E(X))^2\right]$

V. ein r (X.) \geq V. ein r [E. (X. | Y.)]] .

$Var(X)\geq Var[E(X|Y)].$

(θ_{1 i}, θ_{2 i})

$(\theta_{1i},\theta_{2i})$

π_{2} (θ_{2} | y)

$\pi_2(\theta_2|y)$

{\hat{π}}_{2} (θ_{2} | y) = \frac{1}{M.} \sum_{ich = 1}^{M.} π_{2 | 1} (θ_{2} | θ_{1 ich}, y)

$\hat{\pi}_2(\theta_2|y)=\frac{1}{M}\sum_{i=1}^M\pi_{2|1}(\theta_2|\theta_{1i},y)$

θ_{2 i}

$\theta_{2i}$

θ_{2}

$\theta_2$

Beispiel

$X$ $Y$ $\rho$

π (x, y) \propto \exp {- - \frac{1}{2 (1 - - ρ^{2})} (x^{2} + y^{2} - - 2 ρ x y)}}

$\pi(x,y)\propto\exp\left\{-\frac{1}{2(1-\rho^2)}(x^2+y^2-2\rho x y)\right\}$

Y \sim N (0, 1)

$Y\sim N(0,1)$

Y

$Y$

X = x

$X=x$

N (ρ x, 1 - ρ^{2})

$N(\rho x,1-\rho^2)$

$M$ $(X,Y)$ $Y$ $y$

{\hat{π}}_{Y.} (y) = \frac{1}{M.} \sum_{ich = 1}^{M.} \frac{1}{\sqrt{1 - - ρ^{2}} \sqrt{2 π}} \exp {- - \frac{1}{2 (1 - - ρ^{2})} (y - - ρ x_{ich})^{2}}}

$\hat\pi_Y(y)=\frac{1}{M}\sum_{i=1}^M\frac{1}{\sqrt{1-\rho^2}\sqrt{2\pi}}\exp\left\{-\frac{1}{2(1-\rho^2)}(y-\rho x_i)^2\right\}$

library(mvtnorm)

rho <- 0.5
R <- 50
xy <- rmvnorm(n=R, mean=c(0,0), sigma= matrix(c(1,rho,rho,1), ncol=2))
x <- xy[,1]
y <- xy[,2]

kernel_density <- density(y, kernel = "gaussian")
plot(kernel_density,col = "blue",lty=2,main="Rao-Blackwell estimates from conditional normals",ylim=c(0,0.4))
legend(1.5,.37,c("Kernel","N(0,1)","Rao-Blackwell"),lty=c(2,1,3),col=c("blue","black","red"))
g <- seq(-3.5,3.5,length=100)
lines(g,dnorm(g),lty=1) # here's what we pretend not to know

density_RB <- rep(0,100)
for(i in 1:100) {density_RB[i] <- mean(dnorm(g[i], rho*x, sd = sqrt(1-rho^2)))}
lines(g,density_RB,col = "red",lty=3)

Wir stellen fest, dass die RB-Schätzung viel besser abschneidet (da sie die bedingten Informationen ausnutzt):

Christoph Hanck
quelle