Ich verstehe, wo der E-Schritt im Algorithmus stattfindet (wie im Abschnitt "Mathematik" unten erläutert). Meiner Meinung nach ist der Schlüsseleinfallsreichtum des Algorithmus die Verwendung der Jensen-Ungleichung, um eine Untergrenze für die Log-Wahrscheinlichkeit zu erstellen. In diesem Sinne Expectation
wird einfach genommen, um die logarithmische Wahrscheinlichkeit neu zu formulieren, um in Jensens Ungleichung zu passen (dh für die konkave Funktion.)
Gibt es einen Grund, warum der E-Schritt so genannt wird? Gibt es eine Bedeutung für das, was wir erwarten (dh ? Ich habe das Gefühl, dass mir eine Intuition fehlt, warum die Erwartung so zentral ist, anstatt einfach nur ein Nebeneffekt der Erwartung zu sein Verwendung von Jensens Ungleichung.
EDIT: Ein Tutorial sagt:
Der Name 'E-Schritt' kommt von der Tatsache, dass man normalerweise nicht die Wahrscheinlichkeitsverteilung über Abschlüsse explizit bilden muss, sondern nur 'erwartete' ausreichende Statistiken über diese Abschlüsse berechnen muss.
Was bedeutet es "man muss die Wahrscheinlichkeitsverteilung über Vervollständigungen normalerweise nicht explizit bilden"? Wie würde diese Wahrscheinlichkeitsverteilung aussehen?
Anhang: E-Schritt im EM-Algorithmus
quelle
Antworten:
Erwartungen sind für den EM-Algorithmus von zentraler Bedeutung. wird die mit den Daten verbundene Wahrscheinlichkeit als Erwartung wobei die Erwartung in Bezug auf die Randverteilung des latenten Vektors .p ( x 1 ,( x1, … , X.n) (z1,...,
Die Intuition hinter EM basiert ebenfalls auf einer Erwartung. Da nicht direkt optimiert werden kann, während kann, hängt aber von den nicht beobachteten . Die Idee ist, stattdessen die erwartete vollständige Log-Wahrscheinlichkeit zu maximieren Ausnahme, dass diese Erwartung auch von einem Wert von abhängt , der beispielsweise als wird, daher die Funktion zum Maximieren (in ) im M-Schritt: log p ( x 1 , ... , x n , z 1 , ... , z n ; θ ) z i E [ log p ( x 1 , ... , x n , z 1 , … , z n 1 , … , xLogp ( x1, … , X.n;; θ ) Logp ( x1, … , X.n, z1, … , Z.n;; θ ) zich θ θ 0 θQ( θ 0 ,θ)= E θ 0 [ log p ( x 1 , … , x n , z 1 , … , z n ; θ ) | x 1 , … , x n ]
quelle
Xi'ans Antwort ist sehr gut, nur eine Erweiterung bezüglich der Bearbeitung.
Da der Wert von nicht beobachtet wird, schätzen wir eine Verteilung für jeden Datenpunkt ab den nicht beobachteten Daten. Die Q-Funktion ist die Summe der erwarteten Log-Wahrscheinlichkeiten überq x ( Z ) x Q x ( z ) Q ( θ ) = Σ x E q x [ log p ( x , z |z qx(z) x qx(z)
completions
Das erwähntep ( x , z| θ) Q ( θ )
probability distribution over completions
sollte sich auf beziehen . Für einige Verteilungen (insbesondere die Exponentialfamilie, da die Wahrscheinlichkeit in ihrer logarithmischen Form vorliegt) müssen wir nur die erwartete (anstelle der erwarteten Wahrscheinlichkeit) kennen, um zu berechnen und zu maximieren .Q ( θ )sufficient statistics
Es gibt eine sehr gute Einführung in Kapitel 19.2 der probabilistischen grafischen Modelle.
quelle