Ich habe in letzter Zeit die Expectation Maximization selbst studiert und mir dabei einige einfache Beispiele geschnappt:
Ab hier : Es gibt drei Münzen , und mit , und der jeweiligen Wahrscheinlichkeit, auf dem Kopf zu landen, wenn sie geworfen werden. Werfen Sie . Wenn das Ergebnis Head ist, wirf dreimal, andernfalls wirf dreimal. Die beobachteten Daten, die von und sind wie folgt: HHH, TTT, HHH, TTT, HHH. Die versteckten Daten sind das Ergebnis von . Schätzen Sie , und .
Und von hier : Es gibt zwei Münzen und wobei und die jeweilige Wahrscheinlichkeit für die Landung auf dem Kopf sind, wenn sie geworfen werden. Wähle in jeder Runde eine Münze nach dem Zufallsprinzip und wirf sie zehnmal. Notieren Sie die Ergebnisse. Die beobachteten Daten sind die Wurfergebnisse dieser beiden Münzen. Wir wissen jedoch nicht, welche Münze für eine bestimmte Runde ausgewählt wurde. Schätzen Sie und .
Obwohl ich die Berechnungen erhalten kann, kann ich die Art und Weise, wie sie gelöst werden, nicht mit der ursprünglichen EM-Theorie in Beziehung setzen. Insbesondere sehe ich während des M-Schritts in beiden Beispielen nicht, wie sie etwas maximieren. Es scheint nur, dass sie die Parameter neu berechnen, und irgendwie sind die neuen Parameter besser als die alten. Darüber hinaus sehen sich die beiden E-Steps nicht einmal ähnlich, ganz zu schweigen vom E-Step der ursprünglichen Theorie.
Wie genau funktionieren diese Beispiele?
quelle
Antworten:
(Diese Antwort verwendet den zweiten von Ihnen angegebenen Link.)
Wir wollen den Maximum-Likelihood-Schätzer . Der Expectation-Maximization (EM) -Algorithmus ist eine solche Methode, um (zumindest lokal) . Es funktioniert, indem es die bedingte Erwartung findet, die dann verwendet wird, um zu maximieren . Die Idee ist, dass wir durch kontinuierliches Finden eines wahrscheinlicheren (dh wahrscheinlicheren) in jeder Iteration kontinuierlich erhöhen, was wiederum die Wahrscheinlichkeitsfunktion erhöht. Vor dem Entwurf eines EM-basierten Algorithmus müssen drei Schritte ausgeführt werden. & thgr; & thgr;& thgr;Pr[X,Z| θ]θ^ θ^ θ θ Pr[X,Z|θ]
Konstruieren Sie das Modell
Bevor wir mit EM weitermachen, müssen wir herausfinden, was genau wir berechnen. Im E-Schritt berechnen wir genau den erwarteten Wert für . Also, was ist dieser Wert wirklich? Beachten Sie, dass Der Grund dafür ist, dass wir 5 Experimente durchführen müssen und nicht wissen, welche Münzen in den einzelnen verwendet wurden. Die Ungleichung ist auflog Pr [ X , Z | θ ]LogPr [ X, Z| θ] Log
Was ist nun ? Es ist die Wahrscheinlichkeit, dass wir bei Experiment und Münze . Mit bedingten Wahrscheinlichkeiten haben wirC X i & thgr ; Pr [ Z i = C | X i , θ ] = Pr [ X i , Z i = C | θ ]Pr [ Zich= C| Xich, θ ] C Xi θ
Obwohl wir einige Fortschritte erzielt haben, sind wir mit dem Modell noch nicht fertig. Mit welcher Wahrscheinlichkeit hat eine bestimmte Münze die Sequenz ? Lassen Sie Jetzt ist eindeutig nur die Wahrscheinlichkeit , unter den beiden Möglichkeiten der oder . Da ist, ist h i = # Köpfe in X i Pr [ X i , Z i = C | θ ] = 1Xi hi=#heads in Xi
E-Step
Okay ... das hat nicht so viel Spaß gemacht, aber wir können jetzt mit der EM-Arbeit beginnen. Der EM-Algorithmus beginnt mit einer zufälligen Schätzung für . In diesem Beispiel haben wir . Wir berechnen Dieser Wert stimmt mit dem überein, was in der Zeitung steht. Jetzt können wir die erwartete Anzahl von Köpfen in aus Münze , berechnen Tun wir dasselbe für Münze ,θ θ0=(0.6,0.5)
M-Step
Mit unseren erwarteten Werten kommt nun der M-Schritt, bei dem wir unter Berücksichtigung unserer erwarteten Werte maximieren möchten . Dies geschieht durch einfache Normalisierung! Das gleiche gilt für . Dieser Prozess beginnt erneut mit dem E-Schritt und thgr; und setzt sich fort, bis die Werte für thgr; konvergieren (oder bis zu einem zulässigen Schwellenwert). In diesem Beispiel haben wir 10 Iterationen und . Bei jeder Iteration steigt der Wert von aufgrund der besseren Schätzung vonθ
In diesem Fall war das Modell ziemlich simpel. Die Dinge können ziemlich schnell viel komplizierter werden, jedoch wird der EM-Algorithmus immer konvergieren und wird immer einen Schätzer für die maximale Wahrscheinlichkeit erzeugen . Es kann ein lokaler Schätzer sein, aber um dies zu umgehen, können wir den EM-Prozess einfach mit einer anderen Initialisierung neu starten. Wir können dies eine konstante Anzahl von Malen tun und die besten Ergebnisse beibehalten (dh diejenigen mit der höchsten endgültigen Wahrscheinlichkeit).θ^
quelle