Ich lerne derzeit hierarchische Bayes'sche Modelle mit JAGS von R und Pymc mit Python ( "Bayes'sche Methoden für Hacker" ).
Ich kann mir einen Eindruck von diesem Beitrag verschaffen : "Sie werden am Ende einen Haufen Zahlen haben, der aussieht", als ob "Sie es irgendwie geschafft hätten, unabhängige Proben aus der komplizierten Verteilung zu entnehmen, über die Sie wissen wollten." Es ist so etwas wie ich die bedingte Wahrscheinlichkeit angeben kann, dann kann ich einen memorylosen Prozess basierend auf der bedingten Wahrscheinlichkeit erzeugen. Wenn ich den Prozess lange genug generiere, kann die gemeinsame Wahrscheinlichkeit konvergieren. Am Ende der generierten Sequenz kann ich einen Stapel Zahlen nehmen. Es ist so, als würde ich unabhängige Proben aus der komplizierten gemeinsamen Verteilung entnehmen. Zum Beispiel kann ich ein Histogramm erstellen und es kann die Verteilungsfunktion approximieren.
Dann ist mein Problem, muss ich beweisen, ob eine MCMC für ein bestimmtes Modell konvergiert? Ich bin motiviert, dies zu wissen, weil ich zuvor den EM-Algorithmus für GMM und LDA (grafische Modelle) gelernt habe. Wenn ich nur den MCMC-Algorithmus verwenden kann, ohne zu beweisen, ob er konvergiert, kann er viel mehr Zeit sparen als EM. Da muss ich die erwartete Log-Likelihood-Funktion berechnen (muss die hintere Wahrscheinlichkeit berechnen) und dann die erwartete Log-Wahrscheinlichkeit maximieren. Es ist anscheinend umständlicher als das MCMC (ich muss nur die bedingte Wahrscheinlichkeit formulieren).
Ich frage mich auch, ob die Wahrscheinlichkeitsfunktion und die vorherige Verteilung konjugiert sind. Bedeutet das, dass die MCMC konvergieren muss? Ich wundere mich über die Einschränkungen von MCMC und EM.
quelle
Antworten:
EM ist eine Optimierungstechnik: Bei einer Wahrscheinlichkeit mit nützlichen latenten Variablen wird ein lokales Maximum zurückgegeben, das je nach Startwert ein globales Maximum sein kann.
MCMC ist eine Simulationsmethode: Bei einer Wahrscheinlichkeit mit oder ohne latente Variablen und einer vorherigen erzeugt es eine Probe, die ungefähr von der posterioren Verteilung verteilt ist. Die ersten Werte dieser Probe hängen normalerweise vom Startwert ab, was bedeutet, dass sie häufig als Einbrennphase (oder Aufwärmphase) verworfen werden.
Wenn diese Stichprobe verwendet wird, um Integrale zu bewerten, die mit der posterioren Verteilung assoziiert sind [die überwiegende Mehrheit der Fälle], sind die Konvergenzeigenschaften aufgrund des ergodischen Theorems im Wesentlichen dieselben wie die einer iid-Monte-Carlo-Näherung.
quelle