Ich habe die Stan-Dokumentation durchgesehen, die hier heruntergeladen werden kann . Besonders interessiert hat mich die Implementierung der Gelman-Rubin-Diagnostik. Das Originalpapier Gelman & Rubin (1992) definiert den potenziellen Skalenreduktionsfaktor (PSRF) wie folgt:
Sei die te Markov-Kette, und es seien insgesamt unabhängige Ketten abgetastet. Sei der Mittelwert aus der ten Kette und der Gesamtmittelwert. Definiere, wobei Und definiere i M ˉ X i ⋅ i ˉ X ⋅ ⋅ W = 1s 2 m =1
Definiere Die PSRF wird mit geschätzt, wobei \ hat {R} = \ dfrac {\ hat {V}} {W} \ cdot \ dfrac {df + 3} {df + 1} \ ,, wobei df = 2 \ hat {V} / Var (\ hat {V}) .√
In der Stan-Dokumentation auf Seite 349 wird der Term mit df ignoriert und der multiplikative Term . Das ist ihre Formel,
Der Varianzschätzer ist
Schließlich wird die Statistik zur möglichen Größenreduzierung durch
Soweit ich weiß, geben sie keinen Hinweis auf diese Änderung der Formel und diskutieren sie auch nicht. Normalerweise ist nicht zu groß und kann oft so niedrig wie , so dass nicht ignoriert werden sollte, auch wenn der Term mit 1 angenähert werden kann.
Woher kommt diese Formel?
EDIT: Ich habe eine teilweise Antwort auf die Frage " Woher kommt diese Formel? " Gefunden , in der das Bayesian Data Analysis-Buch von Gelman, Carlin, Stern und Rubin (zweite Ausgabe) genau dieselbe Formel hat. Das Buch erklärt jedoch nicht, wie / warum es gerechtfertigt ist, diese Ausdrücke zu ignorieren?
quelle
Antworten:
Ich folgte dem spezifischen Link, der für Gelman & Rubin (1992) angegeben wurde, und es hat jedoch wie in den späteren Versionen ersetzt durch bei Brooks & Gelman (1998) und durch bei BDA2 (Gelman et al., 2003) und BDA3 (Gelman et al., 2003). 2013).
BDA2 und BDA3 (konnten jetzt BDA1 nicht überprüfen) haben eine Übung mit Hinweisen, die zeigen, dass eine unvoreingenommene Schätzung der gewünschten Menge ist.varˆ+
Gelman & Brooks (1998) hat die Gleichung 1.1 die geändert werden kann als Wir können sehen, dass der Effekt des zweiten und dritten Terms für die Entscheidungsfindung vernachlässigbar ist, wenn groß ist. Siehe auch die Diskussion in dem Absatz vor Abschnitt 3.1 in Brooks & Gelman (1998).
Gelman & Rubin (1992) hatten auch den Ausdruck mit df als df / (df-2). Brooks & Gelman (1998) haben einen Abschnitt, der beschreibt, warum diese df-Korrelation falsch ist, und definieren (df + 3) / (df + 1). Der Absatz vor Abschnitt 3.1 in Brooks & Gelman (1998) erklärt, warum (d + 3) / (d + 1) fallengelassen werden kann.
Es scheint, dass Ihre Quelle für die Gleichungen etwas nach Brooks & Gelman (1998) war, wie Sie dort (d + 3) / (d + 1) und Gelman & Rubin (1992) df / df (-2) hatten. Ansonsten haben Gelman & Rubin (1992) und Brooks & Gelman (1998) äquivalente Gleichungen (mit leicht unterschiedlichen Notationen und einigen Begriffen, die unterschiedlich angeordnet sind). BDA2 (Gelman et al., 2003) enthält keine Begriffe mehr . BDA3 (Gelman et al., 2003) und Stan führten die Split-Chain-Version ein.σ^+Wm−n−1mn
Meine Interpretation der Arbeiten und Erfahrungen mit verschiedenen Versionen von ist, dass die Terme, die schließlich fallengelassen wurden, ignoriert werden können, wenn groß ist, selbst wenn nicht groß ist. Ich erinnere mich auch vage daran, wie ich vor Jahren mit Andrew Gelman darüber gesprochen habe, aber wenn Sie sicher sein wollen, dass die Geschichte bekannt ist, sollten Sie ihn fragen.R^ n m
Ich hoffe wirklich, dass dies nicht oft der Fall ist. In Fällen, in denen Sie die Split- -Konvergenzdiagnose verwenden möchten , sollten Sie mindestens 4 geteilte Ketten verwenden und daher M = 8 haben. Sie können weniger Ketten verwenden, wenn Sie bereits wissen, dass die Konvergenz und das Mischen in Ihren speziellen Fällen schnell sind.R^
Zusätzlicher Verweis:
quelle