MCMC-Algorithmen wie Metropolis-Hastings- und Gibbs-Sampling sind Methoden zum Sampling aus den gemeinsamen posterioren Verteilungen.
Ich denke, ich verstehe und kann Metropolen-Hasting ziemlich einfach implementieren - Sie wählen einfach irgendwie Startpunkte aus und gehen den Parameterraum nach dem Zufallsprinzip entlang, wobei Sie sich an der hinteren Dichte und der Vorschlagsdichte orientieren. Die Gibbs-Abtastung scheint sehr ähnlich, aber effizienter zu sein, da immer nur ein Parameter aktualisiert wird, während die anderen konstant bleiben und der Raum auf orthogonale Weise durchlaufen wird.
Dazu benötigen Sie die vollständige Bedingung für jeden Parameter in analytical from *. Aber woher kommen diese vollständigen Bedingungen? Um den Nenner zu erhalten, müssen Sie marginalisieren das Gelenk über . Das scheint eine Menge Arbeit zu sein, die analytisch zu erledigen ist, wenn es viele Parameter gibt, und die möglicherweise nicht nachvollziehbar ist, wenn die gemeinsame Verteilung nicht sehr "nett" ist. Mir ist klar, dass, wenn Sie die Konjugation im gesamten Modell verwenden, die vollständigen Bedingungen möglicherweise einfach sind, aber es muss einen besseren Weg für allgemeinere Situationen geben.
Alle Beispiele für Gibbs-Stichproben, die ich online gesehen habe, verwenden Spielzeugbeispiele (wie Stichproben aus einer multivariaten Normalen, bei denen die Bedingungen selbst nur Normalen sind) und scheinen diesem Problem auszuweichen.
* Oder benötigen Sie überhaupt die vollständigen Bedingungen in analytischer Form? Wie machen es Programme wie winBUGS?
Antworten:
Ja, Sie haben Recht, die bedingte Verteilung muss analytisch ermittelt werden, aber ich denke, es gibt viele Beispiele, bei denen die vollständige bedingte Verteilung leicht zu finden ist und eine weitaus einfachere Form als die gemeinsame Verteilung aufweist.
Die Intuition dafür ist wie folgt: In den meisten "realistischen" gemeinsamen Verteilungen sind die meisten der X i im Allgemeinen bedingt unabhängig von den meisten anderen Zufallsvariablen. Das heißt, einige der Variablen haben lokale Wechselwirkungen, dh X i hängt von X i - 1 und X i + 1 ab , interagiert jedoch nicht mit allem, weshalb sich die bedingten Verteilungen erheblich vereinfachen sollten, da P r (P( X1, … ,Xn) Xich Xich Xi - 1 Xi + 1 Pr ( Xich| X1, … , Xich) = Pr ( Xich| Xi - 1, Xi + 1)
quelle
Ich denke, Sie haben den Hauptvorteil von Algorithmen wie Metropolis-Hastings verpasst. Für die Gibbs-Abtastung müssen Sie die vollständigen Bedingungen abtasten. Sie haben recht, das ist selten einfach. Der Hauptvorteil von Metropolis-Hastings-Algorithmen besteht darin, dass Sie immer noch einen Parameter gleichzeitig abtasten können, aber nur die vollständigen Bedingungen bis zur Proportionalität kennen müssen. Dies liegt daran, dass sich die Nenner in der Annahmekriterienfunktion aufheben
Programme wie WinBugs / Jags verwenden normalerweise Metropolis-Hastings- oder Slice-Sampling-Schritte, für die nur Bedingungen bis zur Proportionalität erforderlich sind. Diese sind bei der DAG erhältlich. Aufgrund der Konjugation machen sie manchmal auch gerade Gibbs-Schritte oder ausgefallene Blockstopps.
quelle