Sind MCMC-basierte Methoden geeignet, wenn eine maximale a-posteriori-Schätzung verfügbar ist?

13

Ich habe bemerkt, dass in vielen praktischen Anwendungen MCMC-basierte Methoden verwendet werden, um einen Parameter zu schätzen, obwohl der hintere Teil analytisch ist (zum Beispiel, weil der hintere Teil konjugiert war). Für mich ist es sinnvoller, MAP-Schätzer als MCMC-basierte Schätzer zu verwenden. Kann jemand darauf hinweisen, warum MCMC in Gegenwart eines analytischen Seitenzahns immer noch eine geeignete Methode ist?

bayesian mcmc posterior Holograph
quelle

2

Können Sie ein Beispiel dafür in der Praxis geben? Es ist zu beachten, dass es einen Unterschied zu einem früheren konjugierten und bedingten konjugierten Zustand gibt . In vielen Gibbs-Stichprobenanwendungen sind die ausgewählten Prioritäten bedingt konjugiert, der Prior selbst ist jedoch nicht konjugiert. Betrachten Sie beispielsweise Latent Dirichlet Allocation.

Kerl

4

Es ist unklar, was MAP damit zu tun hat. Der Bayes-Schätzer ist der hintere Mittelwert, nicht der hintere Modus. Selbst wenn die Priors nicht konjugiert sind, können Sie häufig Optimierungen vornehmen, um den MAP Estimator zu erhalten. Der Zweck von MCMC ist die Schätzung der posterioren Verteilung, die viel mehr Informationen als nur den MAP-Schätzer enthält.

Kerl

11

In diesem Fall muss MCMC nicht verwendet werden: Markov Chain Monte-Carlo (MCMC) ist eine Methode zum Generieren von Werten aus einer Verteilung. Es wird eine Markov-Kette von automatisch korrelierten Werten mit einer stationären Verteilung erzeugt, die der Zielverteilung entspricht. Diese Methode funktioniert auch dann, wenn die Zielverteilung eine analytische Form aufweist. Es gibt jedoch einfachere und weniger rechenintensive Methoden, die in solchen Fällen funktionieren, in denen es sich um einen Posterior handelt, der eine schöne analytische Form hat.

In dem Fall, in dem die hintere Verteilung eine verfügbare analytische Form hat, ist es möglich, Parameterschätzungen (z. B. MAP) durch Optimierung aus dieser Verteilung unter Verwendung von Standardberechnungstechniken zu erhalten. Wenn die Zielverteilung ausreichend einfach ist, erhalten Sie möglicherweise eine Lösung in geschlossener Form für den Parameterschätzer, aber auch wenn dies nicht der Fall ist, können Sie normalerweise einfache iterative Techniken (z. B. Newton-Raphson, Gradientenabstieg usw.) verwenden, um die zu finden Optimierung der Parameterschätzung für bestimmte Eingabedaten. Wenn Sie eine analytische Form für die Quantilfunktion der Zielverteilung haben und Werte aus der Verteilung generieren müssen, können Sie dies über tun inverse Transformationsabtastung, was weniger rechenintensiv als MCMC ist und es Ihnen ermöglicht, IID-Werte anstelle von Werten mit zu generieren komplexe Autokorrelationsmuster.

In Anbetracht dessen scheint es keinen Grund zu geben, MCMC zu verwenden, wenn für die Zielverteilung eine Analyseform verfügbar ist. Der einzige Grund, warum Sie dies tun könnten, besteht darin, dass Sie bereits einen generischen Algorithmus für MCMC geschrieben haben, der mit minimalem Aufwand implementiert werden kann, und Sie entscheiden, dass die Effizienz der Verwendung des Analyseformulars durch den Aufwand für die Ausführung der erforderlichen Berechnungen überwiegt. In bestimmten praktischen Zusammenhängen haben Sie es mit Problemen zu tun, die im Allgemeinen nicht zu lösen sind, wenn MCMC-Algorithmen bereits eingerichtet sind und mit minimalem Aufwand implementiert werden können (z. B. wenn Sie Datenanalysen in ausführen)RStan). In diesen Fällen ist es möglicherweise am einfachsten, Ihre vorhandenen MCMC-Methoden auszuführen, anstatt analytische Lösungen für Probleme abzuleiten. Letztere können jedoch natürlich zur Überprüfung Ihrer Arbeit verwendet werden.

Setzen Sie Monica wieder ein
quelle

10

$\pi(\theta)$

\underset{δ}{Mindest} \int_{Θ} L (θ, δ) \tilde{π} (θ) f (x | θ) d θ

$\min_\delta\int_\Theta \text{L}(\theta,\delta)\,\tilde\pi(\theta)\,f(x|\theta)\,\text{d}\theta$

\tilde{π} (\cdot) \propto π (\cdot)

$\tilde\pi(\cdot)\propto\pi(\cdot)$

\int \tilde{π} (θ) d θ

$\int \tilde\pi(\theta)\,\text{d}\theta$

x, y \in (0, 1)

$x,y\in(0,1)$

f_{θ} (x, y) = \frac{1 + θ [(1 + x) (1 + y) - 3] + θ^{2} (1 - x) (1 - y))}{[1 - θ (1 - x) (1 - y)]^{3}} θ \in (- 1, 1)

$f_\theta(x,y)=\dfrac{1+\theta[(1+x)(1+y)-3]+\theta^2(1-x)(1-y)) }{[1-\theta(1-x)(1-y)]^3}\qquad\theta\in(-1,1)$

Φ^{- 1} (X)

$\Phi^{-1}(X)$

Y = y

$Y=y$

Φ (.)

$\Phi(.)$

Man beachte auch, dass der Maximum-a-posteriori-Schätzer nicht der natürlichste Schätzer in einer Bayes'schen Umgebung ist, da er keiner Verlustfunktion entspricht und eine Darstellung der Dichte in geschlossener Form, selbst bis zu einer Konstanten, das Auffinden des MAP nicht ermöglicht unbedingt einfach. Oder mit dem MAP relevant.

Xi'an
quelle

2

Beim Lesen stellt diese Frage zwei rechtwinklige Fragen. Zum einen sollte man MAP-Schätzer anstelle von posterioren Mitteln verwenden, und zum anderen sollte man MCMC verwenden, wenn der posterior eine analytische Form hat.

In Bezug auf MAP-Schätzer sind aus theoretischer Sicht posteriore Mittelwerte im Allgemeinen vorzuziehen, wie @Xian in seiner Antwort festhält. Der eigentliche Vorteil für MAP-Schätzer besteht darin, dass sie insbesondere in dem eher typischen Fall, in dem der hintere Teil nicht in geschlossener Form vorliegt, viel schneller (dh um mehrere Größenordnungen) berechnet werden können als eine Schätzung des hinteren Mittelwerts. Wenn der hintere Teil ungefähr symmetrisch ist (was bei vielen Problemen mit großen Stichproben oft der Fall ist), sollte die MAP-Schätzung sehr nahe am hinteren Mittelwert liegen. Die Attraktivität des MAP besteht also darin, dass es eine sehr kostengünstige Annäherung an das hintere Mittel sein kann.

Beachten Sie, dass die Kenntnis der Normalisierungskonstante uns nicht dabei hilft, den posterioren Modus zu finden. Wenn wir also technisch gesehen eine geschlossene Formlösung für den posterioren Modus haben, können wir die MAP-Schätzung nur dann finden, wenn wir den posterioren als eine bestimmte Verteilung erkennen, für die Wir wissen, dass es Modus ist.

In Bezug auf die zweite Frage, wenn man eine geschlossene Form der posterioren Verteilung hat, gibt es im Allgemeinen keinen Grund, MCMC-Algorithmen zu verwenden. Theoretisch könnte man sich MCMC-Algorithmen zuwenden , wenn Sie eine geschlossene Formlösung für die posteriore Verteilung hätten, aber keine geschlossene Form für den Mittelwert einer Funktion hätten und nicht direkt aus dieser geschlossenen Formverteilung ziehen könnten. Mir sind jedoch keine Fälle dieser Situation bekannt.

Cliff AB
quelle

1

Ich würde argumentieren, dass MCMC-Methoden nicht unbedingt unangemessen sind , auch wenn geschlossene Lösungen existieren. Natürlich ist es schön, wenn es eine analytische Lösung gibt: Sie ist normalerweise schnell, Sie vermeiden Bedenken hinsichtlich Konvergenz (usw.).

Auf der anderen Seite ist auch die Konsistenz wichtig. Der Wechsel von Technik zu Technik erschwert Ihre Präsentation: Im besten Fall sind es unwesentliche Details, die das Publikum verwirren oder von Ihrem inhaltlichen Ergebnis ablenken. Wenn ich mehrere Modelle hätte, von denen nur einige geschlossene Lösungen zulassen, würde ich nachdrücklich in Betracht ziehen, sie alle über dieselbe MCMC-Pipeline zu führen, selbst wenn dies nicht unbedingt erforderlich wäre.

Ich vermute, dass dies und die Trägheit ("Wir haben dieses Skript, das funktioniert") den größten Teil dessen ausmachen, was Sie sehen.

Matt Krause
quelle

Sind MCMC-basierte Methoden geeignet, wenn eine maximale a-posteriori-Schätzung verfügbar ist?

Antworten: