Wann ist MCMC nützlich?

12

Ich habe Probleme zu verstehen, in welcher Situation der MCMC-Ansatz tatsächlich nützlich ist. Ich gehe ein Spielzeugbeispiel aus dem Kruschke-Buch "Bayesianische Datenanalyse: Ein Tutorial mit R und BUGS" durch.

Was ich bisher verstanden habe, ist, dass wir eine Zielverteilung benötigen, die proportional zu , um eine Stichprobe von . Es scheint mir jedoch, dass wir, sobald wir haben, nur die Verteilung normalisieren müssen, um den posterioren zu erhalten, und der Normalisierungsfaktor könnte leicht numerisch gefunden werden. Was sind die Fälle, in denen dies nicht möglich ist?p(D|θ)p(θ)P(θ|D)p(D|θ)p(θ)

Vaaal
quelle
2
Angenommen, ist kein Skalar, sondern ein Vektor mit 10.000 Dimensionen. θθθ
Jan Galkowski
1
Meine Antwort war etwas knapp. Um die Konstante zu erhalten, muss berechnet werden . Selbst im skalaren Fall wird angenommen, dass wirklich wackelig ist, so dass die Integration selbst numerisch schwierig ist. Dann möchten Sie vielleicht MCMC verwenden. p ( D | θ )p(D|θ)p(θ)p(D|θ)
Jan Galkowski
2
Ein Wort der Vorsicht von Alan Sokal: "Monte Carlo ist eine extrem schlechte Methode; es sollte nur angewendet werden, wenn alle alternativen Methoden am schlechtesten sind." Dann geht er auf eine lange Diskussion der MC-Methoden ein. stat.unc.edu/faculty/cji/Sokal.pdf
Yair Daon
1
@Yair: Es hört sich für mich so an, als würde Sokal Churchill kanalisieren.
Kardinal
1
Wenn nichts anderes mehr geht ...
kjetil b halvorsen

Antworten:

10

Die Monte-Carlo-Integration ist eine Form der numerischen Integration, die viel effizienter sein kann als z. B. die numerische Integration, indem der Integrand mit Polynomen approximiert wird. Dies gilt insbesondere für große Dimensionen, in denen einfache numerische Integrationstechniken eine große Anzahl von Funktionsbewertungen erfordern. Um die Normalisierungskonstante zu berechnen , könnten wir Wichtigkeitsabtastung verwenden ,p(D)

p(D)=q(θ)q(θ)p(θ)p(Dθ)dθ1Nnwnp(θn)p(Dθn),

wobei und aus abgetastet werden . Beachten Sie, dass wir die gemeinsame Verteilung nur an den Stichprobenpunkten bewerten müssen. Für das richtige kann dieser Schätzer sehr effizient sein, da nur sehr wenige Abtastwerte erforderlich sind. In der Praxis kann die Auswahl eines geeigneten schwierig sein, aber hier kann MCMC Abhilfe schaffen! Die getemperte Wichtigkeitsprobe (Neal, 1998) kombiniert MCMC mit der Wichtigkeitsprobe.θ n q q qwn=1/q(θn)θnqqq

Ein weiterer Grund, warum MCMC nützlich ist, ist folgender: Wir interessieren uns normalerweise nicht einmal so sehr für die posteriore Dichte von , sondern für zusammenfassende Statistiken und Erwartungen , z.θ

p(θD)f(θ)dθ.

Zu wissen im Allgemeinen nicht verstehen wir dieses Integral lösen können, aber Proben sind eine sehr bequeme Art und Weise zu schätzen.p(D)

Schließlich ist es für einige MCMC-Methoden, aber nicht für alle von ihnen (z. B. Murray et al., 2006 ) , in der Lage zu sein, zu bewerten .p(Dθ)p(θ)

Lucas
quelle
Sorry, aber das ist mir immer noch nicht klar. Meine Frage ist: Wenn wir nur multiplizieren, erhalten wir ein nicht normalisiertes PDF. Durch Ausführen von MCMC erhalten wir ein Beispiel, für das wir das nicht normalisierte PDF abschätzen können. Wenn wir wollen, können wir beides normalisieren. Angenommen, ich interessiere mich NICHT für eine zusammenfassende Statistik, sondern nur für die Nachwelt. Warum setzen wir MCMC überhaupt ein? Wie Sie sagten, erfordern einige MCMC-Methoden nicht die Berechnung von , daher beziehe ich mich nicht auf diese. Soweit ich weiß, müssen die meisten von ihnen berechnet werden. Was ist der Nutzen dieser Methoden? p ( D | θ ) p ( θ )p(D|θ)p(θ)p(D|θ)p(θ)
Vaaal,
2
Wenn Sie MCMC ausführen, erhalten Sie ein Beispiel aus dem normalisierten PDF. Vermeiden Sie daher die Berechnung der Normalisierungskonstante. Und das ist kostenlos.
Xi'an,
2
@ Vaaal: Ihre Annahme, dass "der Normalisierungsfaktor leicht numerisch zu finden ist" gilt nur für einfache univariate Verteilungen. Für hochdimensionales ; ist das Normalisieren von im Allgemeinen äußerst schwierig. In diesem Fall kann MCMC weiterhin zum Schätzen der Normalisierungskonstante verwendet werden (z. B. über eine getemperte Wichtigkeitsprobe). p ( D | θ ) p ( θ )θp(Dθ)p(θ)
Lucas
6

Wenn Sie ein vorheriges und eine Wahrscheinlichkeit erhaltenf ( x | θ ) p ( θ | x ) , α p ( θ ) f ( x | θ )p(θ)f(x|θ) , die entweder nicht in geschlossener Form berechenbar sind oder so, dass die hintere Verteilung ist kein Standardtyp, eine direkte Simulation dieses Ziels in Richtung einer Monte-Carlo-Approximation der posterioren Verteilung ist nicht möglich. Ein typisches Beispiel sind hierarchische Modelle mit nicht konjugierten Prioren, wie sie im BUGS-Buch zu finden sind .

p(θ|x)p(θ)f(x|θ)

Indirekte Simulationsmethoden wie Akzeptanz-Zurückweisungs-, Verhältnis-Gleichförmigkeits- oder Wichtigkeitsabtastungstechniken stoßen üblicherweise auf numerische und Präzisionsschwierigkeiten, wenn die Dimension des Parameters über einige Einheiten hinaus zunimmt.θ

Im Gegensatz dazu sind Monte-Carlo-Methoden der Markov-Kette für große Dimensionen besser geeignet, da sie die posteriore Verteilung auf lokaler Basis, dh in der Nähe des aktuellen Werts, und auf einer kleineren Anzahl von Komponenten, dh auf Teilräumen, untersuchen können. Zum Beispiel die validiert Gibbs-Sampler die Vorstellung, dass die Simulation von einem eindimensionalen Ziel zu einem Zeitpunkt, nämlich die vollständigen bedingten Verteilungen, die mit assoziiert sind , ausreicht, um auf lange Sicht eine Simulation vom wahren hinteren zu erreichen.p(θ|x)

Markov - Kette Monte Carlo - Methoden auch ein gewisses Maß an Universalität in diesen Algorithmen wie der Metropolis-Hastings-Algorithmus formal für jede posteriore Verteilung verfügbar sind, die bis zu einer Konstanten berechnet werden kann.p(θ|x)

In Fällen, in denen nicht einfach berechnet werden kann, gibt es Alternativen, indem diese Verteilung in eine überschaubare Verteilung über einen größeren Raum vervollständigt wird, wie inp(θ)f(x|θ)

p(θ)f(x|θ)g(z|θ,x)p(θ)f(x|θ)dz
oder durch nicht-markovsche Methoden wie ABC .

MCMC-Methoden haben die Reichweite der Bayes'schen Methoden erheblich erweitert, wie der Aufschwung nach der Popularisierung der Methode durch Alan Gelfand und Adrian Smith im Jahr 1990 zeigt.

Xi'an
quelle
Der Link zu THE BUGS BOOK funktioniert nicht mehr.
HelloWorld