Aufgrund der geringen Kenntnisse, die ich über MCMC-Methoden (Markov-Kette Monte Carlo) habe, verstehe ich, dass die Probenahme ein entscheidender Teil der oben genannten Technik ist. Die am häufigsten verwendeten Stichprobenverfahren sind Hamilton und Metropolis.
Gibt es eine Möglichkeit, maschinelles Lernen oder sogar Tiefenlernen zu nutzen, um einen effizienteren MCMC-Sampler zu erstellen?
Antworten:
Ja. Im Gegensatz zu den anderen Antworten können "typische" Methoden des maschinellen Lernens wie nichtparametrische und (tiefe) neuronale Netze dazu beitragen, bessere MCMC-Sampler zu erstellen.
Die Idee, Surrogate zu verwenden, um MCMC zu beschleunigen, wurde in den letzten Jahren vielfach untersucht, und zwar im Wesentlichen durch Versuche, die Surrogatfunktion auf unterschiedliche Weise aufzubauen und effizient / adaptiv mit verschiedenen MCMC-Methoden zu kombinieren (und auf eine Weise, die die Korrektheit bewahrt) 'der MCMC-Probenahme). Im Zusammenhang mit Ihrer Frage verwenden diese beiden kürzlich erschienenen Arbeiten fortgeschrittene Techniken des maschinellen Lernens - Zufallsnetzwerke ( Zhang et al. 2015 ) oder adaptiv erlernte exponentielle Kernfunktionen ( Strathmann et al. 2015 ) -, um die Ersatzfunktion zu erstellen.
Verweise:
Rasmussen, Carl Edward. "Gaußsche Prozesse zur Beschleunigung des Hybrid-Monte-Carlo-Prozesses für teure Bayes'sche Integrale." Bayesian Statistics 7. 2003.
Zhang, Cheng, Babak Shahbaba und Hongkai Zhao. "Hamilton'sche Monte-Carlo-Beschleunigung unter Verwendung von Ersatzfunktionen mit zufälligen Basen." arXiv-Vorabdruck arXiv: 1506,05555 (2015).
Strathmann, Heiko et al. "Hamiltonian Monte Carlo ohne Farbverläufe mit effizienten Kernel-Exponentialfamilien." Fortschritte in neuronalen Informationsverarbeitungssystemen. 2015.
Nishihara, Robert, Iain Murray und Ryan P. Adams. "Parallele MCMC mit verallgemeinerter elliptischer Schichtabtastung." Journal of Machine Learning Research 15.1 (2014): 2087-2112.
quelle
Eine Methode, die die beiden Konzepte verbinden könnte , ist die eines multivariaten Metropolis Hastings-Algorithmus. In diesem Fall haben wir eine Zielverteilung (die hintere Verteilung) und eine Angebotsverteilung (normalerweise eine multivariate Normal- oder T-Verteilung).
Eine bekannte Tatsache ist, dass der Sampler umso weniger effizient ist, je weiter die Angebotsverteilung von der posterioren Verteilung entfernt ist. Man kann sich also vorstellen, eine maschinelle Lernmethode zu verwenden, um eine Angebotsverteilung zu erstellen, die der tatsächlichen posterioren Verteilung besser entspricht als eine einfache multivariate Normal / t-Verteilung.
Es ist jedoch nicht klar, dass dies eine Verbesserung der Effizienz bedeuten würde. Indem ich Deep Learning vorschlage, gehe ich davon aus, dass Sie an einer Art neuronalen Netzwerkansatz interessiert sein könnten. In den meisten Fällen wäre dies erheblich rechenintensiver als die gesamte Vanille-MCMC-Methode. In ähnlicher Weise kenne ich keinen Grund, warum NN-Methoden (oder sogar die meisten Methoden des maschinellen Lernens) eine angemessene Dichte außerhalb des beobachteten Raums liefern , was für MCMC von entscheidender Bedeutung ist. Selbst wenn man die mit der Erstellung des maschinellen Lernmodells verbundenen Rechenaufwendungen nicht berücksichtigt, kann ich keinen guten Grund erkennen, warum dies die Abtasteffizienz verbessern würde.
quelle
Maschinelles Lernen befasst sich mit der Vorhersage, Klassifizierung oder Gruppierung in einer überwachten oder unbeaufsichtigten Umgebung. Andererseits befasst sich MCMC lediglich mit der Bewertung eines komplexen Intergrals (normalerweise ohne geschlossene Form) unter Verwendung probabilistischer numerischer Methoden. Metropolis Sampling ist definitiv nicht der am häufigsten verwendete Ansatz. In der Tat ist dies die MCMC Methode nur nicht jede probabilistische Komponente zu haben. Daher würde ML in diesem Fall MCMC nichts mitteilen.
Bedeutung basierte Probenahme macht eine probabilistische Komponente erfordern. Unter einigen Grundannahmen ist es effizienter als Metropolis. ML-Methoden können verwendet werden, um diese Wahrscheinlichkeitskomponente zu schätzen, wenn sie mit einigen Annahmen übereinstimmt. Beispiele könnten multivariate Cluster sein, um eine komplexe hochdimensionale Gaußsche Dichte abzuschätzen. Ich bin nicht mit nicht parametrischen Ansätzen für dieses Problem vertraut, aber das könnte ein interessanter Entwicklungsbereich sein.
Dennoch ist ML für mich ein besonderer Schritt bei der Schätzung eines hochdimensionalen komplexen Wahrscheinlichkeitsmodells, das anschließend in einer numerischen Methode verwendet wird. Ich verstehe nicht, wie ML MCMC in diesem Fall wirklich verbessert.
quelle
Es gab einige neuere Arbeiten in der Computerphysik, in denen die Autoren die eingeschränkten Boltzmann-Maschinen verwendeten , um die Wahrscheinlichkeitsverteilung zu modellieren und dann (hoffentlich) effiziente Monte-Carlo-Aktualisierungen für arXiv: 1610.02746 vorzuschlagen . Die Idee hier entpuppt sich als ziemlich ähnlich zu den Referenzen, die @lacerbi oben angegeben hat.
In einem anderen Versuch 1702.08586 konstruierte der Autor explizit Boltzmann-Maschinen, die die berühmten Cluster-Monte-Carlo-Aktualisierungen durchführen (und sogar entdecken) können .
quelle