Ich lese ein Konferenzpapier von Geyer aus dem Jahr 1991, das unten verlinkt ist. Darin scheint er sich einer Methode zu entziehen, die MCMC für die MLE-Parameterschätzung verwenden kann
Dies reizt mich, da ich BFGS-Algorithmen, GAs und alle Arten dieser schrecklichen handgewellten Lucky-Dip- Methoden codiert habe , um globale Minima zu finden, die erforderlich sind, um die Schätzung von Parametern aus MLEs zu extrahieren.
Der Grund, warum es mich reizt, ist, dass wir Parameter erhalten können, ohne eine MLE zu minimieren , wenn wir die Konvergenz des MCMC zu einem festen Punkt garantieren können (z. B. würde ein ausreichendes Kriterium die detaillierte Ausgewogenheit erfüllen ).
Die Schlussfolgerung ist daher, dass dies eine generische Methode darstellt, um die oben und in der Veröffentlichung auferlegten globalen Minima und Modulo-Einschränkungen zu erhalten. Es gibt eine Reihe von Algorithmen für MCMC, z. B. HMC, die für hochdimensionale MCMC-Probleme gut abgebildet sind, und ich würde annehmen, dass sie herkömmliche Gradientenabstiegsmethoden übertreffen würden.
Frage
Stimmt es, dass dieses Papier eine theoretische Grundlage für die Verwendung von MCMC bietet, um Parameterschätzungen von MLEs zu erhalten?
Kann man unter bestimmten Umständen einen MCMC-Algorithmus verwenden, um Parameter aus dem MLE zu extrahieren, wobei die Anforderungen für Methoden wie genetische Algorithmen und BFGS usw. umgangen werden?
Papier
Geyer, CJ (1991). Markov Kette Monte Carlo maximale Wahrscheinlichkeit . Informatik und Statistik: Proc. 23. Symp. Schnittstelle, 156–163.
Abstrakt
Die Markov-Kette Monte Carlo (z. B. der Metropolis-Algorithmus und der Gibbs-Sampler) ist ein allgemeines Werkzeug zur Simulation komplexer stochastischer Prozesse, die für viele Arten statistischer Inferenz nützlich sind. Die Grundlagen der Markov-Kette Monte Carlo werden besprochen, einschließlich der Auswahl von Algorithmen und der Varianzschätzung, und einige neue Methoden werden vorgestellt. Die Verwendung der Markov-Kette Monte Carlo für die Schätzung der maximalen Wahrscheinlichkeit wird erklärt und ihre Leistung mit der Schätzung der maximalen Pseudowahrscheinlichkeit verglichen.
Hinweis: Die Abschnitte 1-6 sind langweilig und Sie kennen sie wahrscheinlich bereits, wenn Sie so weit gekommen sind. In Abschnitt 7 kommt er zu dem interessanten, aber von dem, was er als "Monte Carlo Maximum Likelihood" bezeichnet.
Mehr Ressourcen
Steuerung + f für "Geyer"
quelle
R
Paketglmm
hier Monte Carlo, um die Wahrscheinlichkeit in GLMMs zu approximieren. Das Paket wurde von Geyers Schüler geschrieben. Zusätzlich schätzt das 'R'-Paket' mcemGLM ' hier MLE für GLMMs unter Verwendung von Monte Carlo EM. Das Paket wird von einem Studenten in derselben Abteilung wie Geyer geschrieben.Antworten:
Wenn ich das richtig verstehe, freuen Sie sich über MCMC bei multimodalen Zielfunktionen. Ihre Argumentation ist, dass MCMC-Methoden den globalen Parameterraum durchsuchen, anstatt nur den nächstgelegenen Modus aufzurufen und anzuhalten.
Während dies theoretisch zutrifft, verhält sich MCMC in der Praxis häufig ähnlich wie Bergsteigermethoden: Sobald sie einen lokalen Modus gefunden haben, bleiben sie häufig in diesem Modus. Im Gegensatz zu Bergsteigermethoden besteht eine positive Wahrscheinlichkeit, dass sie den Modus verlassen, sodass theoretisch der globale Raum erkundet wird, wenn sie lange genug laufen. Für die meisten Sampler ist diese Wahrscheinlichkeit jedoch so gering, dass es nicht zumutbar ist, die Kette lange genug laufen zu lassen, um sicher zu sein, dass der Sampler den globalen Raum ordnungsgemäß erkundet.
Natürlich gibt es Sampler, die versuchen, dies zu beheben, indem sie gelegentlich Ausreißerschritte ausführen (dh prüfen, ob sie dem lokalen Modus entkommen können). Ich denke jedoch nicht, dass diese Probenehmer in Bezug auf die Optimierung mit Standardoptimierungsmethoden zur Erforschung multimodaler Oberflächen (z. B. Partikelschwarm usw.) überhaupt wettbewerbsfähig sein werden.
quelle
MCMC konvergiert im Allgemeinen nicht zu einem festen Punkt. Konvergenz ist die stationäre Verteilung einer Markov-Kette. Die Zeichnungen sind unterschiedlich, aber lose wird die Verteilung, aus der sie gezogen werden, festgelegt.
MCMC-Methoden leiden im Allgemeinen unter ähnlichen Problemen wie andere Optimierungsmethoden. Zum Beispiel ist es einfach, Ketten zu entwerfen, die selten den lokalen Minima entkommen. Es gibt eine ganze Literatur mit Tricks, um solche Probleme für verschiedene Modelle zu lösen.
Das heißt und als Antwort auf Ihre zweite Frage, hier ist eine schnelle und schmutzige Möglichkeit, MCMC für die Parameterschätzung zu verwenden:
quelle