Im Metropolis-Hastings-Algorithmus zum Abtasten einer Zielverteilung gilt Folgendes:
- i sei die Zieldichte im Zustand ,
- j ist die im vorgeschlagenen Zustand ,
- j i ist die Vorschlagsdichte für den Übergang in den Zustand gegebenem aktuellen Zustand ,
- j i ist die Akzeptanzwahrscheinlichkeit des vorgeschlagenen Zustands bei aktuellem Zustand .
Dann wird durch die detaillierte Bilanzgleichung nach Auswahl der Vorschlagsdichte die Akzeptanzwahrscheinlichkeit berechnet als:
Wenn symmetrisch ist, dh , dann gilt:
Wenn eine im Zustand i zentrierte Gaußsche Verteilung ist und für alle i die gleiche Varianz \ sigma ^ 2 hat , ist h symmetrisch. Aus Wikipedia :
Wenn zu groß ist, werden fast alle Schritte unter dem MH-Algorithmus zurückgewiesen. Wenn andererseits zu klein ist, werden fast alle Schritte akzeptiert.
Ich frage mich, warum sich die Akzeptanzwahrscheinlichkeit in umgekehrter Richtung wie die Varianzänderung der Vorschlagsdichte ändert, wie im obigen Zitat erwähnt.
Antworten:
Um dies zu erreichen und die Sache zu vereinfachen, denke ich immer zuerst an nur einen Parameter mit gleichmäßiger (weitreichender) A-priori-Verteilung, so dass in diesem Fall die MAP-Schätzung des Parameters dieselbe ist wie die MLE . Nehmen Sie jedoch an, dass Ihre Wahrscheinlichkeitsfunktion kompliziert genug ist, um mehrere lokale Maxima zu haben.
In diesem Beispiel in 1-D untersucht MCMC die hintere Kurve, bis Werte mit maximaler Wahrscheinlichkeit gefunden werden. Wenn die Varianz zu kurz ist, bleiben Sie mit Sicherheit bei lokalen Maxima hängen, da Sie immer Werte in der Nähe abtasten: Der MCMC-Algorithmus "denkt", dass er in der Zielverteilung steckt. Wenn die Varianz jedoch zu groß ist, lehnen Sie Werte mehr oder weniger ab, sobald Sie andere Regionen mit maximaler Wahrscheinlichkeit finden, sobald Sie sich auf ein lokales Maximum festgelegt haben. Wenn Sie den Wert am MAP vorschlagen (oder einen ähnlichen Bereich mit lokaler maximaler Wahrscheinlichkeit, der größer als die anderen ist), lehnen Sie mit einer großen Varianz fast jeden anderen Wert ab: den Unterschied zwischen diesem Bereich und den anderen wird zu groß sein.
Natürlich wirkt sich all das auf die Konvergenzrate und nicht auf die Konvergenz "per se" Ihrer Ketten aus. Denken Sie daran, dass Ihre Kette unabhängig von der Varianz konvergiert, solange die Wahrscheinlichkeit, den Wert dieser globalen Maximalregion auszuwählen, positiv ist.
Um dieses Problem zu umgehen, kann man jedoch unterschiedliche Varianzen in einer Einbrennperiode für jeden Parameter vorschlagen und eine bestimmte Akzeptanzrate anstreben, die Ihren Anforderungen gerecht wird (z. B. , siehe Gelman, Roberts & Gilks, 1995 und Gelman, Gilks & Roberts, 1997 , um mehr über die Auswahl einer "guten" Akzeptanzrate zu erfahren, die natürlich von der Form Ihrer posterioren Verteilung abhängt. In diesem Fall ist die Kette natürlich nicht markovianisch, sodass Sie sie NICHT für Rückschlüsse verwenden müssen: Sie verwenden sie nur, um die Varianz anzupassen.0.44
quelle
Es gibt zwei Grundannahmen, die zu dieser Beziehung führen:
Betrachten wir zuerst den Fall "small ". Sei der aktuelle Zustand der Markov-Kette und der vorgeschlagene Zustand. Da sehr klein ist, können wir sicher sein, dass . Wenn wir dies mit unserer ersten Annahme kombinieren, sehen wir, dass und damit .x i x j ∼ N ( x i , σ 2 ) σ 2 x j ≈ x i π ( x j ) ≈ π ( x i ) π ( x j )σ2 xi xj∼N(xi,σ2) σ2 xj≈xi π(xj)≈π(xi) π(xj)π(xi)≈1
Die niedrige Akzeptanzrate mit großem ergibt sich aus der zweiten Annahme. Denken Sie daran, dass ungefähr der Wahrscheinlichkeitsmasse einer Normalverteilung innerhalb von ihres Mittelwerts liegen. In unserem Fall werden die meisten Vorschläge also innerhalb des Fensters generiert . Wenn größer wird, wird dieses Fenster erweitert, um mehr und mehr von der Domäne der Variablen abzudecken. Die zweite Annahme impliziert, dass die Dichtefunktion über den größten Teil der Domäne ziemlich klein sein muss. Wenn also unser Abtastfenster groß ist, ist häufig sehr klein.σ2 95% 2σ [xi−2σ,xi+2σ] σ2 π(xj)
Nun zu einer zirkulären Argumentation: Da wir wissen, dass der MH-Sampler Abtastwerte erzeugt, die gemäß der stationären Verteilung , muss es so sein, dass er viele Abtastwerte in den Bereichen hoher Dichte der Domäne und wenige Abtastwerte in den Bereichen niedriger Dichte erzeugt . Da die meisten Proben in Regionen mit hoher Dichte erzeugt werden, ist normalerweise groß. Somit ist groß und klein, was zu einer Akzeptanzrate .π π(xi) π(xi) π(xj) π(xj)π(xi)<<1
Diese beiden Annahmen gelten für die meisten Distributionen, an denen wir wahrscheinlich interessiert sind. Daher ist diese Beziehung zwischen Angebotsbreite und Akzeptanzrate ein nützliches Instrument zum Verständnis des Verhaltens von MH-Samplern.
quelle