Wurden groß angelegte Studien zu MCMC-Methoden durchgeführt, in denen die Leistung mehrerer verschiedener Algorithmen für eine Reihe von Testdichten verglichen wurde? Ich denke an etwas, das dem von Rios und Sahinidis (2013) entspricht und einen gründlichen Vergleich einer großen Anzahl derivatfreier Black-Box-Optimierer für verschiedene Klassen von Testfunktionen darstellt.
Für MCMC kann die Leistung beispielsweise anhand der effektiven Anzahl von Proben (ESS) pro Dichtebewertung oder einer anderen geeigneten Metrik geschätzt werden.
Ein paar Kommentare:
Ich weiß, dass die Leistung stark von den Details des PDF-Ziels abhängt , aber ein ähnliches (möglicherweise nicht identisches) Argument gilt für die Optimierung, und dennoch gibt es eine Vielzahl von Benchmark-Funktionen, -Suiten, -Wettbewerben, -Papieren usw., die sich mit der Benchmarking-Optimierung befassen Algorithmen.
Es ist auch wahr, dass MCMC sich von der Optimierung dadurch unterscheidet, dass der Benutzer vergleichsweise viel mehr Sorgfalt und Abstimmung benötigt. Nichtsdestotrotz gibt es nun mehrere MCMC Methoden , die wenig oder keine Abstimmung erfordern: Methoden , die in der Burn-In - Phase anzupassen, während der Probennahme oder mit mehreren Zuständen (auch genannt ensemble Methoden (wie) Emcee ) daß Entwickeln mehr Ketten und die Verwendung interagieren Informationen von anderen Ketten als Leitfaden für die Probenahme.
Ich interessiere mich besonders für den Vergleich zwischen Standard- und Multi-State-Methoden (auch bekannt als Ensemble-Methoden). Informationen zur Definition von Multi-State finden Sie in Abschnitt 30.6 des MacKay-Handbuchs :
Bei einer Methode mit mehreren mehrere Parametervektoren beibehalten. sie entwickeln sich individuell unter Bewegungen wie Metropolis und Gibbs; Es gibt auch Wechselwirkungen zwischen den Vektoren.
- Diese Frage entstand von hier .
Aktualisieren
- In diesem Blog-Beitrag von Bob Carpenter auf Gelmans Blog und in meinem Kommentar zu diesem CV-Beitrag finden Sie eine interessante Darstellung von Methoden mit mehreren Staaten, die auch als Ensemble bezeichnet werden .
quelle
Ich stimme Ihrer Einschätzung zu, dass für MCMC-Methoden keine umfassenden Benchmarks festgelegt wurden. Dies liegt daran, dass jeder MCMC-Sampler Vor- und Nachteile hat und äußerst problemspezifisch ist.
In einer typischen Bayes'schen Modellierung können Sie denselben Sampler mit unterschiedlichen Mischraten ausführen, wenn die Daten unterschiedlich sind. Ich würde so weit gehen zu sagen, dass ich, wenn es in Zukunft eine umfassende Benchmark-Studie zu verschiedenen MCMC-Probenehmern geben sollte, nicht darauf vertrauen würde, dass die Ergebnisse auch außerhalb der gezeigten Beispiele anwendbar sind.
Bezüglich der Verwendung von ESS zur Beurteilung der Probenahmequalität ist zu erwähnen, dass ESS von der Menge abhängt, die anhand der Probe geschätzt werden soll. Wenn Sie den Mittelwert der Stichprobe ermitteln möchten, unterscheidet sich der ermittelte ESS davon, wenn Sie das 25. Quantil schätzen möchten. Wenn die Höhe des Interesses jedoch feststeht, ist ESS eine vernünftige Methode zum Vergleichen von Probenehmern. Vielleicht ist ESS pro Zeiteinheit eine bessere Idee.
Ein Nachteil von ESS ist, dass ESS bei Problemen mit multivariaten Schätzungen eine effektive Stichprobengröße für jede Komponente separat zurückgibt, wobei alle Kreuzkorrelationen im Schätzprozess ignoriert werden. In diesem Artikel wurde kürzlich ein multivariates ESS vorgeschlagen und in
R
Paketenmcmcse
über die Funktion implementiertmultiESS
. Es ist unklar, wie diese Methode mit dem ESS descoda
Pakets verglichen wird , aber zu Beginn erscheint sie vernünftiger als univariate ESS-Methoden.quelle