Können Algorithmen für maschinelles Lernen oder Deep Learning verwendet werden, um den Abtastprozess einer MCMC-Technik zu „verbessern“?

21

Aufgrund der geringen Kenntnisse, die ich über MCMC-Methoden (Markov-Kette Monte Carlo) habe, verstehe ich, dass die Probenahme ein entscheidender Teil der oben genannten Technik ist. Die am häufigsten verwendeten Stichprobenverfahren sind Hamilton und Metropolis.

Gibt es eine Möglichkeit, maschinelles Lernen oder sogar Tiefenlernen zu nutzen, um einen effizienteren MCMC-Sampler zu erstellen?

Jespar
quelle
5
Könnten Sie spezifizieren, welche Art von "Verbesserung" Sie im Sinn haben und wie sehen Sie die Rolle des maschinellen Lernens darin?
Tim
2
MCMC umfasst normalerweise nicht die Schätzung von Werten aus Ausdrücken ohne geschlossene Form, die einfach zu komplex sind, um analytische Lösungen zu finden. Es ist möglich, dass multivariates Clustering (oder ähnliche Ansätze) verwendet werden könnte, um einfachere multivariate Dichten abzuschätzen, aber ich würde das eher als Alternative zur Verwendung von MCMC sehen.
AdamO
1
@AdamO, warum wandelst du das nicht in eine Antwort um? Es scheint so gut zu sein, wie wir hierher kommen können.
gung - Wiedereinsetzung von Monica
@Tim Nun, nach dem, was ich gelesen habe, entnimmt MCMC Proben aus einer Verteilung, um Inferenzgrößen zu berechnen. Der MH-Algorithmus wählt zufällig "Orte" aus und stellt dann fest, ob sie akzeptabel sind. Ich habe mich gefragt, ob es ML-Alternativtechniken gibt. Ich weiß, dass es vage klingt, und ich entschuldige mich dafür, aber ich finde MCMC faszinierend und versuche, die Theorie und die praktischen Anwendungen durch Selbststudium in den Griff zu bekommen.
Jespar

Antworten:

27

Ja. Im Gegensatz zu den anderen Antworten können "typische" Methoden des maschinellen Lernens wie nichtparametrische und (tiefe) neuronale Netze dazu beitragen, bessere MCMC-Sampler zu erstellen.

f(x)fff

fff

logfff

Die Idee, Surrogate zu verwenden, um MCMC zu beschleunigen, wurde in den letzten Jahren vielfach untersucht, und zwar im Wesentlichen durch Versuche, die Surrogatfunktion auf unterschiedliche Weise aufzubauen und effizient / adaptiv mit verschiedenen MCMC-Methoden zu kombinieren (und auf eine Weise, die die Korrektheit bewahrt) 'der MCMC-Probenahme). Im Zusammenhang mit Ihrer Frage verwenden diese beiden kürzlich erschienenen Arbeiten fortgeschrittene Techniken des maschinellen Lernens - Zufallsnetzwerke ( Zhang et al. 2015 ) oder adaptiv erlernte exponentielle Kernfunktionen ( Strathmann et al. 2015 ) -, um die Ersatzfunktion zu erstellen.

t

f

Verweise:

  1. Rasmussen, Carl Edward. "Gaußsche Prozesse zur Beschleunigung des Hybrid-Monte-Carlo-Prozesses für teure Bayes'sche Integrale." Bayesian Statistics 7. 2003.

  2. Zhang, Cheng, Babak Shahbaba und Hongkai Zhao. "Hamilton'sche Monte-Carlo-Beschleunigung unter Verwendung von Ersatzfunktionen mit zufälligen Basen." arXiv-Vorabdruck arXiv: 1506,05555 (2015).

  3. Strathmann, Heiko et al. "Hamiltonian Monte Carlo ohne Farbverläufe mit effizienten Kernel-Exponentialfamilien." Fortschritte in neuronalen Informationsverarbeitungssystemen. 2015.

  4. Nishihara, Robert, Iain Murray und Ryan P. Adams. "Parallele MCMC mit verallgemeinerter elliptischer Schichtabtastung." Journal of Machine Learning Research 15.1 (2014): 2087-2112.

lacerbi
quelle
2
Ich bin nicht sicher, ob die Methoden, die Sie aufgelistet haben, wirklich in der Kategorie "Methoden des maschinellen Lernens" sind, sondern nur Standard-MCMC-Methoden (obwohl dies die unscharfeste der Linien ist). Die einzige, die definitiv eine ML / DL-Methode zu sein scheint, war 3, die inzwischen das "neuronale Netzwerk" aus ihrem Titel entfernt hat (und im Text zuzugeben scheint, dass die Verwendung von Standard-ML-Methoden viel zu langsam wäre).
Cliff AB
2
t
1
Vielen Dank @lacerbi. Ich bin froh, dass ich Ihre Referenzen als Fundament für die weitere Forschung verwenden kann.
Jespar
6

Eine Methode, die die beiden Konzepte verbinden könnte , ist die eines multivariaten Metropolis Hastings-Algorithmus. In diesem Fall haben wir eine Zielverteilung (die hintere Verteilung) und eine Angebotsverteilung (normalerweise eine multivariate Normal- oder T-Verteilung).

Eine bekannte Tatsache ist, dass der Sampler umso weniger effizient ist, je weiter die Angebotsverteilung von der posterioren Verteilung entfernt ist. Man kann sich also vorstellen, eine maschinelle Lernmethode zu verwenden, um eine Angebotsverteilung zu erstellen, die der tatsächlichen posterioren Verteilung besser entspricht als eine einfache multivariate Normal / t-Verteilung.

Es ist jedoch nicht klar, dass dies eine Verbesserung der Effizienz bedeuten würde. Indem ich Deep Learning vorschlage, gehe ich davon aus, dass Sie an einer Art neuronalen Netzwerkansatz interessiert sein könnten. In den meisten Fällen wäre dies erheblich rechenintensiver als die gesamte Vanille-MCMC-Methode. In ähnlicher Weise kenne ich keinen Grund, warum NN-Methoden (oder sogar die meisten Methoden des maschinellen Lernens) eine angemessene Dichte außerhalb des beobachteten Raums liefern , was für MCMC von entscheidender Bedeutung ist. Selbst wenn man die mit der Erstellung des maschinellen Lernmodells verbundenen Rechenaufwendungen nicht berücksichtigt, kann ich keinen guten Grund erkennen, warum dies die Abtasteffizienz verbessern würde.

Cliff AB
quelle
Cliff AB Ich habe das Gefühl, dass Sie und @AdamO mir die MCMC- und ML-Konzepte näher gebracht haben, als Stunden mit einem anderen Buch zu verbringen. Ich bedanke mich für Ihre Bemühungen und freue mich, dass Sie einige Bereiche erwähnt haben, auf die ich noch näher eingehen kann.
Jespar
@Sitherion auf welches Buch beziehen Sie sich?
AdamO
@AdamO Derzeit lese ich Reinforcement Learning von Richard Sutton und Machine Learning: Eine probabilistische Perspektive von Kevin Murphy, die ein MCMC-Kapitel enthält. sowie Veröffentlichungen aus verschiedenen ML- und Computational Statistics-Fachzeitschriften.
Jespar
3

Maschinelles Lernen befasst sich mit der Vorhersage, Klassifizierung oder Gruppierung in einer überwachten oder unbeaufsichtigten Umgebung. Andererseits befasst sich MCMC lediglich mit der Bewertung eines komplexen Intergrals (normalerweise ohne geschlossene Form) unter Verwendung probabilistischer numerischer Methoden. Metropolis Sampling ist definitiv nicht der am häufigsten verwendete Ansatz. In der Tat ist dies die MCMC Methode nur nicht jede probabilistische Komponente zu haben. Daher würde ML in diesem Fall MCMC nichts mitteilen.

Bedeutung basierte Probenahme macht eine probabilistische Komponente erfordern. Unter einigen Grundannahmen ist es effizienter als Metropolis. ML-Methoden können verwendet werden, um diese Wahrscheinlichkeitskomponente zu schätzen, wenn sie mit einigen Annahmen übereinstimmt. Beispiele könnten multivariate Cluster sein, um eine komplexe hochdimensionale Gaußsche Dichte abzuschätzen. Ich bin nicht mit nicht parametrischen Ansätzen für dieses Problem vertraut, aber das könnte ein interessanter Entwicklungsbereich sein.

Dennoch ist ML für mich ein besonderer Schritt bei der Schätzung eines hochdimensionalen komplexen Wahrscheinlichkeitsmodells, das anschließend in einer numerischen Methode verwendet wird. Ich verstehe nicht, wie ML MCMC in diesem Fall wirklich verbessert.

AdamO
quelle
Vielen Dank an @AdamO, zumindest habe ich jetzt ein weitaus besseres Verständnis für diesen Bereich.
Jespar
1
Ich halte diese Antwort für unvollständig und möglicherweise falsch (abhängig von der Interpretation der eigentlichen Frage des OP, die nicht ganz klar ist). Typische ML-Methoden wie nichtparametrische und neuronale Netze können und werden zur Verbesserung von MCMC-Samplern eingesetzt. Tatsächlich ist es ein aktives Forschungsgebiet. Siehe meine Antwort und Referenzen darin, um damit zu beginnen.
Lacerbi
1
p
Vielen Dank @AdamO. Um ehrlich zu sein, verstehe ich Ihre Erklärung oder die Richtigkeit Ihrer Antwort nicht. Zum Beispiel verstehe ich nicht, was Sie meinen, wenn Sie sagen, dass Metropolis "keine probabilistische Komponente" hat. Sie behaupten auch, dass ML bei der Stichprobenentnahme nicht helfen kann, was einfach nicht stimmt (selbst bei der engen Definition der Stichprobenentnahme als Schätzung eines hochdimensionalen Integrals), wie meine Antwort zeigt.
Lacerbi
3
@AdamO: Gaußsche Prozesse, Kernel-Methoden, zufällige Basis-Netzwerke. Im Allgemeinen würde jede Form der Funktionsnäherung oder Dichteschätzung funktionieren. Wenn diese nicht ML Methoden, bin ich nicht sicher , was ist ... (bitte beachten Sie, dass die OP für ML gefragt oder DL - Verfahren). Können Sie bitte erläutern, was Sie gemeint haben, als Sie geschrieben haben, dass Metropolis keine probabilistische Komponente hat? Vielen Dank!
Lacerbi
0

Es gab einige neuere Arbeiten in der Computerphysik, in denen die Autoren die eingeschränkten Boltzmann-Maschinen verwendeten , um die Wahrscheinlichkeitsverteilung zu modellieren und dann (hoffentlich) effiziente Monte-Carlo-Aktualisierungen für arXiv: 1610.02746 vorzuschlagen . Die Idee hier entpuppt sich als ziemlich ähnlich zu den Referenzen, die @lacerbi oben angegeben hat.

In einem anderen Versuch 1702.08586 konstruierte der Autor explizit Boltzmann-Maschinen, die die berühmten Cluster-Monte-Carlo-Aktualisierungen durchführen (und sogar entdecken) können .

Lei Wang
quelle