Eine Möglichkeit wäre, eine eingeschränkte HMC-Variante zu verwenden, wie sie in A Family of MCMC Methods on Implicit Defined Manifolds von Brubaker et al. (1) beschrieben ist. Dies setzt voraus, dass wir die Bedingung ausdrücken können, dass die Maximum-Likelihood-Schätzung des Positionsparameters gleich einer festen da eine implizit definierte (und differenzierbare) holonome Einschränkung . Wir können dann ein eingeschränktes Hamilton-dynamisches Objekt simulieren, das dieser Einschränkung unterliegt, und innerhalb eines Metropolis-Hastings-Schritts akzeptieren / ablehnen, wie in der Standard-HMC.μ0c ( { xich}Ni = 1) =0
Die negative log-Wahrscheinlichkeit ist
mit partiellen Ableitungen erster und zweiter Ordnung in Bezug auf der Standortparameter
Eine Maximum-Likelihood-Schätzung von wird dann implizit als Lösung für definiert
μ∂L
L =- ∑i = 1N[ logf( xich|μ ) ] = 3 ∑i = 1N[ log( 1 + ( xich- μ )25) ] +konstant
μ
μ0c=N∑i=1[2(μ0-xi)∂L∂μ= 3 ∑i = 1N[ 2 ( μ - xich)5 + ( μ - xich)2]und∂2L∂μ2= 6 ∑i = 1N[ 5 - ( μ - xich)2( 5 + ( μ - xich)2)2] .
μ0c = ∑i = 1N[ 2 ( μ0- xich)5 + ( μ0- xich)2] =0unterliegen∑i = 1N[ 5 - ( μ0- xich)2( 5 + ( μ0- xich)2)2] >0.
Ich bin nicht sicher, ob es Ergebnisse gibt, die darauf hindeuten, dass es eine eindeutige MLE für für - die Dichte ist in nicht , also scheint es nicht so trivial, dies zu garantieren. Wenn es eine einzige eindeutige Lösung gibt, definiert das Obige implizit eine verbundene dimensionale Mannigfaltigkeit, die in eingebettet ist und der Menge von mit MLE für gleich entspricht bisμ{ xich}Ni = 1μN- 1RN{xi}Ni=1μμ0. Wenn es mehrere Lösungen gibt, kann der Verteiler aus mehreren nicht verbundenen Komponenten bestehen, von denen einige Minima in der Wahrscheinlichkeitsfunktion entsprechen können. In diesem Fall benötigen wir einen zusätzlichen Mechanismus für die Bewegung zwischen den nicht verbundenen Komponenten (da die simulierte Dynamik im Allgemeinen auf eine einzelne Komponente beschränkt bleibt) und prüfen Sie die Bedingung zweiter Ordnung und lehnen Sie eine Bewegung ab, wenn dies der Bewegung entspricht ein Minimum an Wahrscheinlichkeit.
Wenn wir mit den Vektor und einen konjugierten Impulszustand mit der Massenmatrix und einem Lagrange einführen Multiplikator für die Skalarbedingung dann die Lösung für das System der ODEs
x[x1…xN]TpMλc(x)
dxdt=M−1p,dpdt=−∂L∂x−λ∂c∂xsubject toc(x)=0and∂c∂xM−1p=0
gegebene Anfangsbedingung mit und , definiert eine beschränkte Hamilton-Dynamik, die auf den Beschränkungsverteiler beschränkt bleibt, zeitumkehrbar ist und das Hamilton- und das Verteilervolumenelement exakt konserviert. Wenn wir einen symplektischen Integrator für beschränkte Hamilton-Systeme wie SHAKE (2) oder RATTLE (3) verwenden, die die Beschränkung bei jedem Zeitschritt genau einhalten, indem wir nach dem Lagrange-Multiplikator auflösen, können wir die genauen dynamischen Vorwärts- diskreten Zeitschritte simulieren
x(0)=x0, p(0)=p0c(x0)=0∂c∂x∣∣x0M−1p0=0Lδtvon einer Anfangsbedingung, die erfüllt und akzeptiere das vorgeschlagene neue Zustandspaar mit der Wahrscheinlichkeit
Verschachteln wir diese Dynamikaktualisierungen mit einer teilweisen / vollständigen Neuabtastung der Impulse von ihrem Gaußschen Rand (beschränkt auf den linearen Unterraum, der durch
x,px′,p′min{1,exp[L(x)−L(x′)+12pTM−1p−12p′TM−1p′]}.
∂c∂xM−1p=0) dann modulo die Möglichkeit, dass es mehrere nicht verbundene Bedingungsverteilerkomponenten gibt, sollte die gesamte MCMC-Dynamik ergodisch sein und die Konfigurationszustandsmuster werden in der Verteilung auf die auf den Bedingungsverteiler beschränkte Zieldichte abgedeckt.
x
Um zu sehen, wie sich die eingeschränkte HMC für diesen Fall verhält, habe ich die in (4) beschriebene und hier auf Github verfügbare Implementierung der eingeschränkten HMC auf Basis eines geodätischen Integrators ausgeführt (vollständige Offenlegung: Ich bin Autor von (4) und Eigentümer des Github-Repositorys) verwendet eine Variation des in (5) vorgeschlagenen Integratorschemas 'Geodesic-BAOAB' ohne den stochastischen Ornstein-Uhlenbeck-Schritt. Nach meiner Erfahrung ist dieses geodätische Integrationsschema im Allgemeinen ein bisschen einfacher abzustimmen als das in (1) verwendete RATTLE-Schema, da mehrere kleinere innere Schritte für die geodätische Bewegung auf dem Beschränkungsverteiler verwendet werden können. Ein IPython-Notizbuch, das die Ergebnisse generiert, ist hier verfügbar .
Ich habe , und . Ein anfängliches , das einem MLE von wurde durch Newtons Verfahren gefunden (wobei die Ableitung zweiter Ordnung überprüft wurde, um sicherzustellen, dass ein Maximum der Wahrscheinlichkeit gefunden wurde). Ich habe eine eingeschränkte Dynamik mit , und vollständigen Momentum-Refreshals für 1000 Aktualisierungen ausgeführt. Das folgende Diagramm zeigt die resultierenden Spuren auf den drei -KomponentenN=3μ=1μ0=2xμ0δt=0.5L=5x
und die entsprechenden Werte der Ableitungen erster und zweiter Ordnung der negativen log-Wahrscheinlichkeit sind unten gezeigt
woraus ersichtlich ist, dass wir für alle abgetasteten ein Maximum der log-Wahrscheinlichkeit haben . Obwohl es aus den einzelnen Kurvendiagrammen nicht ohne weiteres ersichtlich ist, liegt das abgetastete auf einem nichtlinearen 2D-Verteiler, der in eingebettet ist - die Animation unten zeigt die Beispiele in 3Dx R 3xxR3
Abhängig von der Interpretation der Einschränkung kann es auch erforderlich sein, die Zieldichte um einen Jacobi-Faktor anzupassen, wie in (4) beschrieben. Insbesondere, wenn Ergebnisse im Einklang mit der Grenze von , wenn ein ABC-ähnlicher Ansatz verwendet wird, um die Einschränkung näherungsweise aufrechtzuerhalten, indem uneingeschränkte Züge in und if akzeptiert werden. , dann müssen wir die Zieldichte mit . Im obigen Beispiel habe ich diese Einstellung nicht berücksichtigt, sodass die Stichproben aus der ursprünglichen Zieldichte auf den Beschränkungsverteiler beschränkt sind.R N | c ( x ) | < ϵ √ϵ→0RN|c(x)|<ϵ∂c∂xT∂c∂x−−−−−−√
Verweise
MA Brubaker, M. Salzmann und R. Urtasun. Eine Familie von MCMC-Methoden an implizit definierten Mannigfaltigkeiten. In Proceedings of the 15. International Conference on Artificial Intelligence and Statistics , 2012.
http://www.cs.toronto.edu/~mbrubake/projects/AISTATS12.pdf
J.-P. Ryckaert, G. Ciccotti und HJ Berendsen. Numerische Integration der kartesischen Bewegungsgleichungen eines Systems mit Nebenbedingungen: Molekulardynamik von n-Alkanen. Journal of Computational Physics , 1977.
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.399.6868
HC Andersen. RATTLE: Eine "Velocity" -Version des SHAKE-Algorithmus für molekulardynamische Berechnungen. Journal of Computational Physics , 1983.
http://www.sciencedirect.com/science/article/pii/0021999183900141
MM Graham und AJ Storkey. Asymptotisch exakte Inferenz in Wahrscheinlichkeitsmodellen. Vorabdruck von arXiv arXiv: 1605.07826v3 , 2016.
https://arxiv.org/abs/1605.07826
B. Leimkuhler und C. Matthews. Effiziente Molekulardynamik durch geodätische Integration und Aufspaltung von Lösungsmitteln. Proc. R. Soc. A. Vol. Nr. 2189. The Royal Society , 2016.
http://rspa.royalsocietypublishing.org/content/472/2189/20160138.abstract