Kann adaptive MCMC vertrauenswürdig sein?

20

Ich lese über adaptive MCMC (siehe z. B. Kapitel 4 der Handbuchs von Markov Chain Monte Carlo , Herausgeber Brooks et al., 2011; und auch Andrieu & Thoms, 2008 ).

np(n)limnp(n)=0

Dieses Ergebnis ist (a posteriori) asymptotisch intuitiv. Da der Anpassungsgrad gegen Null tendiert, wird die Ergodizität letztendlich nicht beeinträchtigt. Meine Sorge ist, was mit endlicher Zeit passiert .

  • Woher wissen wir, dass die Anpassung nicht zu einem bestimmten Zeitpunkt mit der Ergodizität in Konflikt gerät und dass ein Sampler aus der richtigen Verteilung entnimmt? Wenn es überhaupt Sinn macht, wie viel Burn-In sollte man tun, um sicherzustellen, dass eine frühzeitige Anpassung die Ketten nicht belastet?

  • Vertrauen Praktiker auf dem Gebiet adaptiven MCMC? Der Grund , warum ich frage ist , weil ich in letzter Zeit viele Methoden gesehen habe , die in anderen, komplexeren Möglichkeiten , um build-in Anpassung versuchen , die Ergodizität, wie sie bekannt zu respektieren Regeneration oder Ensemble Methoden (dh es ist echt einen Übergang zu wählen Operator, der vom Zustand anderer paralleler Ketten abhängt). Alternativ wird die Anpassung nur während des Einbrennens durchgeführt, wie in Stan , jedoch nicht zur Laufzeit. All diese Bemühungen legen mir nahe, dass adaptives MCMC nach Roberts und Rosenthal (das unglaublich einfach zu implementieren wäre) nicht als zuverlässig angesehen wird. aber vielleicht gibt es andere gründe.

  • Was ist mit spezifischen Implementierungen wie der adaptiven Metropolis-Hastings ( Haario et al. 2001 )?


Verweise

lacerbi
quelle
1
+1, aber gibt es zeitlich begrenzte Garantien auch für nicht adaptive MCMC?
Juho Kokkala
2
@JuhoKokkala: wahrscheinlich nicht, aber es scheint, dass mit adaptivem MCMC eine weitere Schicht möglicher Ausfallarten hinzugefügt wird, die weniger verstanden und schwerer zu überprüfen sind als Standardprobleme der Konvergenz (die per se bereits ziemlich schwierig zu diagnostizieren sind). Zumindest verstehe ich so, warum Praktizierende (ich zum Beispiel) sich davor hüten würden.
Lacerbi
1
Ich denke, Anpassung beim Burnin ist der beste Weg, um mit Anpassung umzugehen. Wenn Sie in einigen Bereichen Ihres Seitenzahns ein anderes Tuning als in anderen benötigen, treten natürlich Probleme auf. Wenn Sie jedoch ein vollständig adaptives MCMC ausführen, können Sie sich aufgrund des verschwindenden Zustands ohnehin nicht viel anpassen. .
sega_sai

Antworten:

2

Woher wissen wir, dass die Anpassung nicht zu einem bestimmten Zeitpunkt mit der Ergodizität in Konflikt gerät und dass ein Sampler aus der richtigen Verteilung entnimmt? Wenn es überhaupt Sinn macht, wie viel Burn-In sollte man tun, um sicherzustellen, dass eine frühzeitige Anpassung die Ketten nicht belastet?

Bei Ergodizität und Voreingenommenheit geht es um asymptotische Eigenschaften der Markov-Kette, sie sagen nichts über das Verhalten und die Verteilung der Markov-Kette aus at a given finite time. Die Adaptivität hat mit diesem Problem nichts zu tun. Jeder MCMC-Algorithmus kann Simulationen erzeugen, die weit vom Ziel entfernt sind at a given finite time.

Xi'an
quelle
1
(+1) Danke für die Klarstellung. Ja, ich verstehe, dass MCMC-Algorithmen keine Garantien haben at a given finite time. In der Praxis verwenden wir sie jedoch so, als ob sie zu einem bestimmten Zeitpunkt eine gute / vernünftige Annäherung an die Zielverteilung liefern, auch wenn in den meisten Fällen keine theoretischen Garantien vorliegen (AFAIK: Nur wenige Fälle werden mathematisch verstanden). Vielleicht sollte ich sagen "Durcheinander mit der Mischzeit "? Das ist näher an dem, was ich meinte. Wenn Sie Vorschläge zur Behebung der Sprache haben, lassen Sie es mich bitte wissen.
Lacerbi