Akzeptanzverhältnis im Metropolis-Hastings-Algorithmus

9

Im Metropolis-Hastings-Algorithmus zum Abtasten einer Zielverteilung gilt Folgendes:

  • iπi sei die Zieldichte im Zustand ,i
  • jπj ist die im vorgeschlagenen Zustand ,j
  • j ihij ist die Vorschlagsdichte für den Übergang in den Zustand gegebenem aktuellen Zustand ,ji
  • j iaij ist die Akzeptanzwahrscheinlichkeit des vorgeschlagenen Zustands bei aktuellem Zustand .ji

Dann wird durch die detaillierte Bilanzgleichung nach Auswahl der Vorschlagsdichte die Akzeptanzwahrscheinlichkeit berechnet als: ha

aij=min(1,πjhjiπihij).

Wenn h symmetrisch ist, dh hij=hji , dann gilt:

aij=min(1,πjπi).

Wenn hi eine im Zustand i zentrierte Gaußsche Verteilung ist iund für alle i die gleiche Varianz \ sigma ^ 2 hat , ist h symmetrisch. Aus Wikipedia : σ2ih

Wenn σ2 zu groß ist, werden fast alle Schritte unter dem MH-Algorithmus zurückgewiesen. Wenn andererseits σ2 zu klein ist, werden fast alle Schritte akzeptiert.

Ich frage mich, warum sich die Akzeptanzwahrscheinlichkeit in umgekehrter Richtung wie die Varianzänderung der Vorschlagsdichte ändert, wie im obigen Zitat erwähnt.

Tim
quelle
Bei Ihrer Formulierung gibt es ein Problem: Sie verwenden einen endlichen Zustandsraum, um Ziel, Vorschlag und Akzeptanzwahrscheinlichkeit zu definieren, aber eine Gaußsche Verteilung, die auf einem kontinuierlichen Raum als Beispiel arbeitet.
Xi'an
@ Xi'an: Danke! Ich war mir des Unterschieds zwischen diskretem und kontinuierlichem Probenraum bewusst, als ich die Frage stellte. In meiner Formulierung gibt es also Dichtefunktionen für die Ziel- und Angebotsverteilung, während es sich um die Wahrscheinlichkeit für die Akzeptanzverteilung handelt. Ich sehe nicht, was nicht richtig ist. Ich frage mich, ob Sie darauf hinweisen könnten?
Tim
In Ihrer Formulierung klingen Ziel und Vorschlag wie Wahrscheinlichkeitsmassenfunktionen, nicht wie Dichtefunktionen. Oder es ist sehr verwirrend, Symbole zu verwenden, die normalerweise für ganze Zahlen reserviert sind ... Ich meine, sieht aus wie ein Matrixelement. Aus diesem Grund bin ich der Meinung, dass der Gaußsche Vorschlag nicht passt. hij
Xi'an

Antworten:

11

Um dies zu erreichen und die Sache zu vereinfachen, denke ich immer zuerst an nur einen Parameter mit gleichmäßiger (weitreichender) A-priori-Verteilung, so dass in diesem Fall die MAP-Schätzung des Parameters dieselbe ist wie die MLE . Nehmen Sie jedoch an, dass Ihre Wahrscheinlichkeitsfunktion kompliziert genug ist, um mehrere lokale Maxima zu haben.

In diesem Beispiel in 1-D untersucht MCMC die hintere Kurve, bis Werte mit maximaler Wahrscheinlichkeit gefunden werden. Wenn die Varianz zu kurz ist, bleiben Sie mit Sicherheit bei lokalen Maxima hängen, da Sie immer Werte in der Nähe abtasten: Der MCMC-Algorithmus "denkt", dass er in der Zielverteilung steckt. Wenn die Varianz jedoch zu groß ist, lehnen Sie Werte mehr oder weniger ab, sobald Sie andere Regionen mit maximaler Wahrscheinlichkeit finden, sobald Sie sich auf ein lokales Maximum festgelegt haben. Wenn Sie den Wert am MAP vorschlagen (oder einen ähnlichen Bereich mit lokaler maximaler Wahrscheinlichkeit, der größer als die anderen ist), lehnen Sie mit einer großen Varianz fast jeden anderen Wert ab: den Unterschied zwischen diesem Bereich und den anderen wird zu groß sein.

Natürlich wirkt sich all das auf die Konvergenzrate und nicht auf die Konvergenz "per se" Ihrer Ketten aus. Denken Sie daran, dass Ihre Kette unabhängig von der Varianz konvergiert, solange die Wahrscheinlichkeit, den Wert dieser globalen Maximalregion auszuwählen, positiv ist.

Um dieses Problem zu umgehen, kann man jedoch unterschiedliche Varianzen in einer Einbrennperiode für jeden Parameter vorschlagen und eine bestimmte Akzeptanzrate anstreben, die Ihren Anforderungen gerecht wird (z. B. , siehe Gelman, Roberts & Gilks, 1995 und Gelman, Gilks ​​& Roberts, 1997 , um mehr über die Auswahl einer "guten" Akzeptanzrate zu erfahren, die natürlich von der Form Ihrer posterioren Verteilung abhängt. In diesem Fall ist die Kette natürlich nicht markovianisch, sodass Sie sie NICHT für Rückschlüsse verwenden müssen: Sie verwenden sie nur, um die Varianz anzupassen.0.44

Néstor
quelle
+1 Danke! (1) Warum "wenn die Varianz zu groß ist, lehnen Sie Werte mehr oder weniger ab, sobald Sie andere Regionen mit maximaler Wahrscheinlichkeit gefunden haben, sobald Sie ein lokales Maximum erreicht haben"? (2) "Wenn Sie zufällig den Wert am MAP vorschlagen (oder einen ähnlichen Bereich mit lokaler maximaler Wahrscheinlichkeit, der größer als die anderen ist), mit einer großen Varianz, werden Sie am Ende fast jeden anderen Wert ablehnen", meinen Sie Es ist sehr wahrscheinlich, dass der vorgeschlagene Punkt, der sich zufällig bei MAP befindet, im Fall einer großen Varianz abgelehnt wird. Ist seine Akzeptanzwahrscheinlichkeit nicht immer 1, unabhängig vom aktuellen Zustand, da es sich um ein globales Maximum handelt?
Tim
@ Tim: (1) Ich habe in dem Fall gedacht, in dem der Anfangszustand zufällig ist. Wenn dies der Fall ist, springen Sie von Maxima zu Maxima, bis Sie eine Region mit lokaler maximaler Wahrscheinlichkeit finden, die größer als der Durchschnitt ist. (2) Wenn Sie zufällig einen Wert in der Nähe des MAP vorschlagen, springen Sie höchstwahrscheinlich in diesen Zustand. Sobald Sie dort sind, werden Sie mit großer Varianz mit ziemlicher Sicherheit jeden anderen Wert ablehnen, da Sie Werte vorschlagen, die weit außerhalb dieses Bereichs mit maximaler Wahrscheinlichkeit liegen.
Néstor
7

Es gibt zwei Grundannahmen, die zu dieser Beziehung führen:

  1. Die stationäre Verteilung ändert sich nicht zu schnell (dh sie hat eine begrenzte erste Ableitung).π()
  2. Der größte Teil der Wahrscheinlichkeitsmasse von ist in einer relativ kleinen Teilmenge der Domäne konzentriert (die Verteilung ist "Peaky").π()

Betrachten wir zuerst den Fall "small ". Sei der aktuelle Zustand der Markov-Kette und der vorgeschlagene Zustand. Da sehr klein ist, können wir sicher sein, dass . Wenn wir dies mit unserer ersten Annahme kombinieren, sehen wir, dass und damit .x i x jN ( x i , σ 2 ) σ 2 x jx i π ( x j ) π ( x i ) π ( x j )σ2xixjN(xi,σ2)σ2xjxiπ(xj)π(xi)π(xj)π(xi)1

Die niedrige Akzeptanzrate mit großem ergibt sich aus der zweiten Annahme. Denken Sie daran, dass ungefähr der Wahrscheinlichkeitsmasse einer Normalverteilung innerhalb von ihres Mittelwerts liegen. In unserem Fall werden die meisten Vorschläge also innerhalb des Fensters generiert . Wenn größer wird, wird dieses Fenster erweitert, um mehr und mehr von der Domäne der Variablen abzudecken. Die zweite Annahme impliziert, dass die Dichtefunktion über den größten Teil der Domäne ziemlich klein sein muss. Wenn also unser Abtastfenster groß ist, ist häufig sehr klein.σ295%2σ[xi2σ,xi+2σ]σ2π(xj)

Nun zu einer zirkulären Argumentation: Da wir wissen, dass der MH-Sampler Abtastwerte erzeugt, die gemäß der stationären Verteilung , muss es so sein, dass er viele Abtastwerte in den Bereichen hoher Dichte der Domäne und wenige Abtastwerte in den Bereichen niedriger Dichte erzeugt . Da die meisten Proben in Regionen mit hoher Dichte erzeugt werden, ist normalerweise groß. Somit ist groß und klein, was zu einer Akzeptanzrate .ππ(xi)π(xi)π(xj)π(xj)π(xi)<<1

Diese beiden Annahmen gelten für die meisten Distributionen, an denen wir wahrscheinlich interessiert sind. Daher ist diese Beziehung zwischen Angebotsbreite und Akzeptanzrate ein nützliches Instrument zum Verständnis des Verhaltens von MH-Samplern.

Drew
quelle
+1. Vielen Dank! Wenn groß ist, bin ich mir immer noch nicht sicher, warum normalerweise groß ist, während normalerweise klein ist? Kann Ihr Grund, dass klein ist, auf und Ihr Grund, dass groß ist, auf zutreffen ? π ( x i ) π ( x j ) π ( x j ) π ( x i ) π ( x i ) π ( x j )σ2π(xi)π(xj)π(xj)π(xi)π(xi)π(xj)
Tim
1
Eine andere Möglichkeit, darüber nachzudenken, ist folgende: Wenn groß ist, haben die meisten Ihrer Vorschläge ( ) eine geringe Dichte unter der Zielverteilung (aus den oben beschriebenen Gründen - ist dieser Teil in Ordnung?). Sehr selten schlagen Sie im Rahmen des Vorschlags einen Wert mit hoher Dichte vor, und wenn dies geschieht, werden Sie ihn mit ziemlicher Sicherheit akzeptieren. Dort schlagen Sie weiterhin unwahrscheinliche Werte vor. Da Sie selten eine davon akzeptieren, "bleiben" Sie für viele Iterationen bei Ihrer aktuellen Probe mit hoher Dichte. x jσ2xj
Drew