Hamiltonian / Hybrid MCMC 'Massenmatrix'-Terminologie

8

Ich versuche, HMC mit einer nicht diagonalen Massenmatrix zu implementieren, aber ich werde von einigen Begriffen gestolpert.

Laut BDA3 und Neals Bericht ist der kinetische Energiebegriff (der meiner Meinung nach aus Bequemlichkeitsgründen immer verwendet wird)

K (p) = \frac{p^{T} M^{- 1} p}{2} .

$K(p) = \frac{p^T M^{-1} p}{2} \,.$

Dies ist auch als multivariate Normalen mit dem Mittelwert Null und der Kovarianzmatrix erkennbar . BDA3 (S. 301) sagt $M$

Um es einfach zu halten, verwenden wir üblicherweise eine diagonale Massenmatrix M. Wenn ja, sind die Komponenten von φ unabhängig, wobei φj ∼ N (0, Mjj) für jede Dimension j = 1 ,. . . d. Es kann für M nützlich sein, grob mit der inversen Kovarianzmatrix der posterioren Verteilung (var (θ | y)) ^ - 1 zu skalieren.

(Ich lese N (0, M)) als multivariate Normalen mit Mittelwert Null und Kovarianz M.)

Der Teil, der mich auslöst, besagt, dass "es für nützlich sein kann , grob mit der inversen Kovarianzmatrix der posterioren Verteilung zu skalieren ...". $M$

Und dann auch noch kurz vor , dass die Dynamik Probe, die die Leapfrog Schritte beginnt ( ) mit aus einer multivariaten Normal gezogen Kovarianz Matrix . $\phi$ $M$

Also was ist es? Schätze ich die Kovarianz- oder Präzisionsmatrix des Seitenzahns, um ein gutes M für HMC zu konstruieren? Obwohl die Kovarianzmatrix der kinetischen Energie ist, ergibt die Verwendung eines , das eine Schätzung der Präzisionsmatrix des Seitenzahns darstellt, einen effizienteren Algorithmus? $M$ $M$

Sekundäre Frage: Was ist die Intuition, die mich hierher führen könnte?

Möchten Sie eine Präzisionsmatrix verwenden, damit der Impuls orthogonal zum Potential / Posterior drückt, um das Mischen zu verbessern?
ODER möchten Sie, dass der Impuls in Richtung des Massenteils mit hoher Wahrscheinlichkeit des Seitenzahns geht (weil Sie dort die meisten Proben ziehen möchten).

ps Der Grund, warum ich die Identitätsmatrix für ist, dass ich für mein Problem in der Lage bin, vorher eine anständige Schätzung der Kovarianzmatrix meines ziemlich hochdimensionalen (~ 1000) posterioren zu erhalten. $M$

bayesian mcmc monte-carlo bill_e
quelle

6

Eine lineare Transformation der Positionsvariablen entspricht der inversen linearen Transformation der Impulsvariablen. Idealerweise möchten Sie eine Stichprobe aus einer (transformierten) Verteilung ziehen, deren Kovarianzmatrix die Identitätsmatrix ist. Diese wird durch die oben angegebene Transformation erhalten.

Für Details gibt es eine schöne Erklärung in Neals "MCMC using Hamiltonian Dynamics", Kapitel 5 des Handbuchs der Markov-Kette Monte Carlo , Abschnitt 4.1 ("Effekt linearer Transformationen"). Das Kapitel finden Sie hier .

Neal erklärt:

Nehmen wir an, wir haben eine Schätzung der Kovarianzmatrix für und nehmen auch an, dass mindestens eine ungefähr Gaußsche Verteilung hat. Wie können wir diese Informationen verwenden, um die Leistung von HMC zu verbessern? Eine Möglichkeit besteht darin, die Variablen so zu transformieren, dass ihre Kovarianzmatrix nahe an der Identität liegt, indem die Cholesky-Zerlegung , wobei ein niedrigeres Dreieck ist, und gelassen wird . [ ] $\Sigma$ $q$ $q$ $\Sigma = LL^T$ $L$ $q^\prime = L^{−1}q$ $\ldots$

Ein äquivalenter Weg, die geschätzte Kovarianz besteht darin, die ursprünglichen Variablen , aber die kinetische Energiefunktion - dh wir lassen die Impulsvariablen Kovarianz . Die Äquivalenz kann gesehen werden, indem diese kinetische Energie so transformiert wird, dass sie einer Transformation zu (siehe Gleichung (4.1)), die ergibt mit . $\Sigma$ $q$ $K(p) = p^T \Sigma p/2$ $\Sigma^{−1}$ $q^\prime = L^{−1} q$ $K(p^\prime) = (p^\prime)^T{M^\prime}^{−1}p^\prime$ $M^\prime = (L^{−1}(LL^T)(L^{−1})^T)^{−1} = I$

Nehmen wir zur Verdeutlichung an, dass das Ziel-PDF zigarrenförmig ist und in eine Richtung zeigt, die nicht achsenausgerichtet ist. Sie können den Raum entweder drehen und neu skalieren, so dass die Zigarre zu einer Kugel wird, und dann Impulse aus einer multivariaten Normaleinheit ziehen, oder Sie können den ursprünglichen Raum beibehalten und Ihre Impulse so zeichnen, dass sie mit der Zigarre ausgerichtet sind (z. mit dem größten Teil der Geschwindigkeit entlang der Hauptachse der Zigarre, damit Sie sie schnell erkunden können).

Lacerbi
quelle

Ich muss gestehen, dass ich das gelesen habe (ein paar Mal) und mich dann entschlossen habe, diese Frage zu stellen ... Wenn Sie Neals Erklärung dort mit meinen Fragen verbinden können, erhalten Sie alle Punkte

bill_e

@bill_e: Ihre erste Frage wurde oben vollständig beantwortet: "Wir lassen die Impulsvariablen Kovarianz haben ". Also ja, . Die Antwort auf die zweite Frage lautet, dass Sie senden möchten, damit die Verteilung der Impulse auf die Achsen der Kovarianzmatrix ausgerichtet ist (was einer Neuparametrisierung des ursprünglichen Raums entspricht, sodass die Kovarianzmatrix ist Die Identität).

Σ^{- 1}

$\Sigma^{-1}$

M = Σ^{- 1}

$M = \Sigma^{-1}$

p \to L^{T} p

$p \rightarrow L^T p$

Lacerbi

Veröffentlichte Schritte einer Implementierung davon, nur um kristallklar zu sein. Ist es richtig? Ganz speziell die Umkehrung (oder das Fehlen) von . Ja, die Zigarrensache macht Sinn. Ich werde mehr darüber nachdenken.

\hat{Σ}

$\hat{\Sigma}$

bill_e

4

Ein einfacher Weg, um herauszufinden, warum die inverse Kovarianz der Verteilung sein sollte, aus der Sie eine Stichprobe erstellen möchten, besteht darin, eine Stichprobe aus einer multivariaten Normalen mit dem aribiträren Mittelwert und der Kovarianz . In diesem Fall können die Hamiltonschen Bewegungsgleichungen genau gelöst werden (dh es ist keine Sprungintegration erforderlich). Für passieren nun zwei magische Dinge: (i) die Bewegungsgleichungen für jede Koordinate entkoppeln sich vom Rest, und (ii) die Matrizen und heben sich gegenseitig auf und verschwinden aus den Gleichungen der Bewegung. Die Lösung ist ein Satz von Oszillatoren mit gleicher Frequenz, von denen argumentiert werden kann, dass sie das schnellstmögliche Mischen ergeben. Siehe einige Details in den Gleichungen (2.31) - (2.35) $M$ $\mu$ $\Sigma$ $M=\Sigma^{-1}$ $\Sigma$ $M$ hier .

In einer generischen Verteilung wäre dieser Ansatz nur eine Annäherung.

Aripakman
quelle

0

Wesentlicher Teil des linear transformierenden Impulses unter Verwendung der geschätzten Kovarianz.

Bei einer Schätzung der Kovarianzmatrix der posterioren HMC ist eine Stichprobe von: $\hat{\Sigma}$

Zeichne $\phi \sim N(0, \hat{\Sigma}^{-1})$
Simulieren Sie die Hamiltonsche Dynamik. (L-mal wiederholen)

A. Halber Schritt: . $\phi \leftarrow \phi + \frac{1}{2}\epsilon \frac{d}{d\theta}\mathrm{log}p(\theta \mid y)$

B. Vollständiger Schritt: . $\theta \leftarrow \theta + \epsilon \hat{\Sigma}\phi$

C. Halber Schritt: . $\phi \leftarrow \phi + \frac{1}{2}\epsilon \frac{d}{d\theta}\mathrm{log} p(\theta \mid y)$
Annehmen ablehnen.

(Wenn dies richtig ist, stimme nicht zu, stimme @lacerbi zu)

bill_e
quelle

1

subbed für

M^{- 1}

$M^{-1}$

\hat{Σ}

$\hat{\Sigma}$

bill_e

Ja, ich denke das ist richtig. Siehe zum Beispiel Gl. (4) dieses Papiers .

Lacerbi

Hamiltonian / Hybrid MCMC 'Massenmatrix'-Terminologie

Antworten: