Mein Ziel ist es zu sehen, dass der K-Mittelwert-Algorithmus tatsächlich ein Erwartungsmaximierungsalgorithmus für Gaußsche Gemische ist, bei dem alle Komponenten eine Kovarianz im Grenzwert als .
Angenommen , wir haben einen Datensatz von Beobachtungen von Zufallsvariablen .
Die Zielfunktion für M-Mittel ist gegeben durch:
(Wenn der Datenpunkt dem Cluster k zugewiesen ist , ist und für k).
Der K-Mittelwert-Algorithmus minimiert durch Iteration bis zur Konvergenz, was zwei aufeinanderfolgende Schritte umfasst:
(E) Minimieren in Bezug auf hält alle fest
(M) minimiert in Bezug auf hält alle fest
Im Allgemeinen maximiert der EM-Algorithmus, indem er alle beobachteten Daten mit , alle latenten Variablen mit und alle Modellparameter mit , die posteriore Verteilung durch Iteration bis zur Konvergenz von zwei abwechselnden Schritten:
(E. ) Berechnen Sie die Erwartung
(M) find
Betrachten Sie nun die Gaußsche Mischungsverteilung: Einführung einer latenten dimensionalen binären Zufallsvariablen durch , wir sehen, dass: Also
Wenn jetzt alle Gaußschen im Mischungsmodell die Kovarianz , kann unter Berücksichtigung der Grenze leicht zeigen, dass wobei as ist oben definiert. In der Tat aktualisiert der (E) -Schritt wie im K-Mittelwert-Algorithmus.
Ich habe jedoch Probleme mit der Maximierung von in diesem Zusammenhang, wie für .
Stimmt es, dass bis zu einer konstanten und skalaren Multiplikation:
?
Vielleicht fehlt mir etwas. Irgendein Rat?
quelle
Antworten:
Dies ist nicht der Fall, da - wie Sie selbst beobachtet haben - die Grenze abweicht.
Wenn wir jedoch zuerst transformieren und dann die Grenze nehmen, konvergieren wir zum k-Mittelwert-Ziel. Für und wirQ Σk=σ2I πk=1/K
Durch Multiplizieren mit (was den EM-Algorithmus nicht beeinflusst, da nicht optimiert, sondern konstant ist) und Sammeln aller konstanten Terme in wir, dass Beachten Sie, dass die Maximierung dieser Funktion in Bezug auf für jedes und dasselbe ergibt Ergebnis als obige Zielfunktion, dh es ist eine äquivalente Formulierung des M-Schritts. Aber das Limit zu nehmen ergibt jetzt .σ2 σ C
Abgesehen davon besteht eine meiner Ansicht nach etwas elegantere Formulierung von EM darin, die Zielfunktion Mit dieser Zielfunktion läuft der EM-Algorithmus auf Alternieren hinaus zwischen der Optimierung von in Bezug auf (M-Schritt) und (E-Schritt). Wenn wir die Grenze nehmen, sehen wir, dass sowohl der M-Schritt als auch der E-Schritt zum k-Mittelwert-Algorithmus konvergieren.
Siehe auch eine alternative Ansicht von EM .
quelle