Was ist der Grund für eine Akzeptanzrate von etwa 20%, wenn der Metropolis-Hastings-Algorithmus mit einheitlichen Kandidatenverteilungen ausgeführt wird?
Mein Gedanke ist: Sobald die wahren (oder nahezu wahren) Parameterwerte entdeckt wurden, würde kein neuer Satz von Kandidatenparameterwerten aus demselben einheitlichen Intervall den Wert der Wahrscheinlichkeitsfunktion erhöhen. Je mehr Iterationen ich ausführe, desto niedriger sollten die Akzeptanzraten sein.
Wo irre ich mich in diesem Denken? Danke vielmals!
Hier ist die Illustration meiner Berechnungen:
Dabei ist die Log-Wahrscheinlichkeit.
Da Kandidaten immer aus demselben einheitlichen Intervall genommen werden,
Daher verringert sich die Berechnung der Akzeptanzrate auf:
Die Akzeptanzregel von lautet dann wie folgt:
Wenn , wobei aus der gleichmäßigen Verteilung im Intervall , dann
sonst zeichne aus der gleichmäßigen Verteilung im Intervall [ θ m i n , θ m a x ]
quelle
Antworten:
Ich glaube, dass die schwache Konvergenz und optimale Skalierung der Metropolis-Algorithmen für zufällige Spaziergänge von Roberts, Gelman und Gilks die Quelle für die optimale Akzeptanzrate von 0,234 ist.
Das Papier zeigt, dass Sie unter bestimmten Voraussetzungen den Metropolis-Hastings-Algorithmus für zufällige Spaziergänge skalieren können, wenn die Dimension des Raums unendlich wird, um eine begrenzende Diffusion für jede Koordinate zu erhalten. Im Grenzfall kann die Diffusion als "am effizientesten" angesehen werden, wenn die Akzeptanzrate den Wert 0,234 annimmt. Intuitiv ist es ein Kompromiss zwischen vielen kleinen akzeptierten Schritten und vielen großen Vorschlägen, die abgelehnt werden.
Der Metropolis-Hastings-Algorithmus ist im Gegensatz zum simulierten Tempern kein Optimierungsalgorithmus. Es ist ein Algorithmus, der aus der Zielverteilung simulieren soll, daher sollte die Akzeptanzwahrscheinlichkeit nicht in Richtung 0 getrieben werden.
quelle
Nur um die Antwort von @NRH hinzuzufügen. Die allgemeine Idee folgt dem Goldlöckchen-Prinzip :
Die Frage ist natürlich, was wir unter "genau richtig" verstehen. Im Wesentlichen minimieren sie für einen bestimmten Fall die erwartete quadratische Sprungdistanz. Dies entspricht der Minimierung der Autokorrelationen von Lag-1. Kürzlich haben Sherlock und Roberts gezeigt, dass die Magie 0,234 für andere Zielverteilungen gilt:
quelle
Ich füge dies als Antwort hinzu, weil ich nicht genug Ruf habe, um unter der Frage zu kommentieren. Ich denke, Sie sind verwirrt zwischen Akzeptanzrate und Akzeptanzquote .
Ihr Zweifel an einer optimalen Akzeptanzrate von 20% bezieht sich nun auf die tatsächliche Akzeptanzrate und nicht auf die Akzeptanzquote. Die Antwort ist in den anderen Antworten angegeben. Ich wollte nur auf die Verwirrung hinweisen, die Sie haben.
quelle