Ich versuche, HMC mit einer nicht diagonalen Massenmatrix zu implementieren, aber ich werde von einigen Begriffen gestolpert.
Laut BDA3 und Neals Bericht ist der kinetische Energiebegriff (der meiner Meinung nach aus Bequemlichkeitsgründen immer verwendet wird)
Dies ist auch als multivariate Normalen mit dem Mittelwert Null und der Kovarianzmatrix erkennbar . BDA3 (S. 301) sagt
Um es einfach zu halten, verwenden wir üblicherweise eine diagonale Massenmatrix M. Wenn ja, sind die Komponenten von φ unabhängig, wobei φj ∼ N (0, Mjj) für jede Dimension j = 1 ,. . . d. Es kann für M nützlich sein, grob mit der inversen Kovarianzmatrix der posterioren Verteilung (var (θ | y)) ^ - 1 zu skalieren.
(Ich lese N (0, M)) als multivariate Normalen mit Mittelwert Null und Kovarianz M.)
Der Teil, der mich auslöst, besagt, dass "es für nützlich sein kann , grob mit der inversen Kovarianzmatrix der posterioren Verteilung zu skalieren ...".
Und dann auch noch kurz vor , dass die Dynamik Probe, die die Leapfrog Schritte beginnt ( ) mit aus einer multivariaten Normal gezogen Kovarianz Matrix . M.
Also was ist es? Schätze ich die Kovarianz- oder Präzisionsmatrix des Seitenzahns, um ein gutes M für HMC zu konstruieren? Obwohl die Kovarianzmatrix der kinetischen Energie ist, ergibt die Verwendung eines , das eine Schätzung der Präzisionsmatrix des Seitenzahns darstellt, einen effizienteren Algorithmus?M.
Sekundäre Frage: Was ist die Intuition, die mich hierher führen könnte?
Möchten Sie eine Präzisionsmatrix verwenden, damit der Impuls orthogonal zum Potential / Posterior drückt, um das Mischen zu verbessern?
ODER möchten Sie, dass der Impuls in Richtung des Massenteils mit hoher Wahrscheinlichkeit des Seitenzahns geht (weil Sie dort die meisten Proben ziehen möchten).
ps Der Grund, warum ich die Identitätsmatrix für ist, dass ich für mein Problem in der Lage bin, vorher eine anständige Schätzung der Kovarianzmatrix meines ziemlich hochdimensionalen (~ 1000) posterioren zu erhalten.
quelle
Ein einfacher Weg, um herauszufinden, warum die inverse Kovarianz der Verteilung sein sollte, aus der Sie eine Stichprobe erstellen möchten, besteht darin, eine Stichprobe aus einer multivariaten Normalen mit dem aribiträren Mittelwert und der Kovarianz . In diesem Fall können die Hamiltonschen Bewegungsgleichungen genau gelöst werden (dh es ist keine Sprungintegration erforderlich). Für passieren nun zwei magische Dinge: (i) die Bewegungsgleichungen für jede Koordinate entkoppeln sich vom Rest, und (ii) die Matrizen und heben sich gegenseitig auf und verschwinden aus den Gleichungen der Bewegung. Die Lösung ist ein Satz von Oszillatoren mit gleicher Frequenz, von denen argumentiert werden kann, dass sie das schnellstmögliche Mischen ergeben. Siehe einige Details in den Gleichungen (2.31) - (2.35)μ Σ M = Σ - 1 Σ M.M μ Σ M=Σ−1 Σ M hier .
In einer generischen Verteilung wäre dieser Ansatz nur eine Annäherung.
quelle
Wesentlicher Teil des linear transformierenden Impulses unter Verwendung der geschätzten Kovarianz.
Bei einer Schätzung der Kovarianzmatrix der posterioren HMC ist eine Stichprobe von:Σ^
Zeichneφ ~ N.( 0 , Σ^- 1)
Simulieren Sie die Hamiltonsche Dynamik. (L-mal wiederholen)
A. Halber Schritt: .ϕ ← ϕ + 12ϵ ddθl o g p(θ∣ y)
B. Vollständiger Schritt: .θ ← θ + ϵ Σ^ϕ
C. Halber Schritt: .ϕ ← ϕ + 12ϵ ddθl o g p(θ∣ y)
Annehmen ablehnen.
(Wenn dies richtig ist, stimme nicht zu, stimme @lacerbi zu)
quelle