Warum beschleunigt die redundante mittlere Parametrisierung Gibbs MCMC?

12

In dem Buch von Gelman & Hill (2007) (Datenanalyse unter Verwendung von Regression und mehrstufigen / hierarchischen Modellen) behaupten die Autoren, dass die Einbeziehung redundanter mittlerer Parameter zur Beschleunigung der MCMC beitragen kann.

Das gegebene Beispiel ist ein nicht verschachteltes Modell des "Flugsimulators" (Gl. 13.9):

yiN(μ+γj[i]+δk[i],σy2)γjN(0,σγ2)δkN(0,σδ2)

Sie empfehlen eine Umparametrierung, wobei die Mittelwerte μγ und μδ wie folgt addiert werden:

γjN(μγ,σγ2)δkN(μδ,σδ2)

Die einzige Begründung lautet (S. 420):

Es ist möglich, dass die Simulationen in einer Konfiguration hängen bleiben, in der der gesamte Vektor (oder δ ) weit von Null entfernt ist (obwohl ihnen eine Verteilung mit dem Mittelwert 0 zugewiesen wurde). Letztendlich werden die Simulationen zur korrekten Verteilung konvergieren, aber wir wollen nicht warten müssen.γδ

Wie helfen die redundanten Mittelwertparameter bei diesem Problem?

Es scheint mir, dass das nicht verschachtelte Modell langsam ist, hauptsächlich weil und δ negativ korreliert sind. (Wenn einer steigt, muss der andere sinken, da seine Summe durch die Daten "festgelegt" ist.) Helfen die redundanten Mittelwertparameter, die Korrelation zwischen γ und δ zu verringern , oder etwas ganz anderes?γδγδ

Heisenberg
quelle
Suchen Sie einen intuitiven Einblick in dieses spezielle Problem (z. B. ob es sich um die Korrelation - δ oder die Korrelationen γ - μ und δ - μ handelt ), oder suchen Sie einen intuitiven Einblick in das allgemeine Problem (dh das Konzept der Hierarchie) Zentrierung)? Wünschen Sie im letzteren Fall eine Intuition, die einem Beweis oder einer Intuition nahe kommt, die viel lockerer ist und mehr oder weniger zeigt, wie sie funktioniert? γδγμδμ
Sextus Empiricus
Ich hätte gerne einen intuitiven Einblick in das Konzept der hierarchischen Zentrierung im Allgemeinen (da der spezielle Fall in der Frage direkt eine Anwendung der hierarchischen Zentrierung ist). Der wichtigste Punkt, auf den ich einen Einblick haben möchte, ist: Warum funktioniert die hierarchische Zentrierung, wenn die Varianz auf Gruppenebene einen erheblichen Teil der Gesamtvarianz ausmacht ? Das Papier von Gelfand et al. Beweist dies mathematisch (dh leitet die Korrelation ab und findet ihr begrenzendes Verhalten), jedoch ohne intuitive Erklärung.
Heisenberg

Antworten:

4

Die zu vermeidende Korrelation ist die zwischen und γ j und δ k .μγjδk

Durch Ersetzen von und δ k im Rechenmodell durch alternative Parameter, die um μ zentriert sind, wird die Korrelation verringert.γjδkμ

Eine sehr klare Beschreibung finden Sie in Abschnitt 25.1 „Was ist hierarchische Zentrierung?“. im (frei erhältlichen) Buch 'MCMC Estimation in MLwiN' von William J. Browne und anderen. http://www.bristol.ac.uk/cmm/software/mlwin/download/manuals.html

Sextus Empiricus
quelle
Abschnitt 25.1 der 'MCMC Estimation MlwiN' beschreibt diese "hierarchische Zentrierung", geht aber nicht weiter auf Details ein, als zu behaupten, dass sie funktioniert. Beim Durchsuchen der Referenzen stellte ich fest, dass der tatsächliche Beweis für diese Technik in dem Artikel Effiziente Parametrisierung für normale lineare gemischte Modelle von Gelfand et al., Biometrika Bd. 82, Ausgabe 3, dargestellt ist.
Heisenberg,
Der obige Artikel macht wiederum von Eigenschaften der Normalverteilung Gebrauch, ohne diese zu erläutern. Ich habe Beweise für diese Eigenschaften in der konjugierten Bayes'schen Analyse der Gaußschen Verteilung von Kevin Murphy gefunden.
Heisenberg
Leider habe ich immer noch keine intuitive Erklärung dafür gesehen, warum diese Technik funktioniert.
Heisenberg
Es ist spät, aber ich denke, dieses Papier könnte das sein, wonach Sie suchen
Baruuum