Ich habe Algorithmen zum Clustering von Daten (unbeaufsichtigtes Lernen) untersucht: EM und k-means. Ich lese ständig Folgendes:
k-means ist eine Variante von EM mit der Annahme, dass Cluster sphärisch sind.
Kann jemand den obigen Satz erklären? Ich verstehe nicht, was sphärisch bedeutet und wie kmeans und EM zusammenhängen, da der eine probabilistische Zuordnung vornimmt und der andere deterministisch.
In welcher Situation ist es außerdem besser, k-means Clustering zu verwenden? oder verwenden Sie EM-Clustering?
Antworten:
K bedeutet
EM
quelle
Es gibt keinen "k-means Algorithmus". Es gibt den MacQueens-Algorithmus für k-means, den Lloyd / Forgy-Algorithmus für k-means, die Hartigan-Wong-Methode, ...
Es gibt auch nicht "den" EM-Algorithmus. Es ist ein allgemeines Schema, bei dem wiederholt die Wahrscheinlichkeiten erwartet und dann das Modell maximiert werden. Die beliebteste Variante von EM ist auch als "Gaussian Mixture Modeling" (GMM) bekannt, bei dem es sich um multivariate Gauß-Verteilungen handelt.
Man kann den Lloyds-Algorithmus als aus zwei Schritten bestehend betrachten:
Wenn Sie diese beiden Schritte wie von Lloyd wiederholen, wird dies effektiv zu einer Instanz des allgemeinen EM-Schemas. Es unterscheidet sich von GMM, dass:
quelle
Hier ist ein Beispiel, wenn ich dies in mplus mache, das hilfreich sein und umfassendere Antworten ergänzen könnte:
Angenommen, ich habe 3 stetige Variablen und möchte anhand dieser Cluster identifizieren. Ich würde ein Mischungsmodell (genauer gesagt ein latentes Profilmodell) unter der Annahme einer bedingten Unabhängigkeit (die beobachteten Variablen sind unabhängig, wenn die Clustermitgliedschaft gegeben ist) wie folgt angeben:
Ich habe dieses Modell mehrere Male ausgeführt, wobei jedes Mal eine andere Anzahl von Clustern angegeben wurde, und die Lösung ausgewählt, die mir am besten gefällt (dies zu tun, ist ein umfangreiches Thema für sich).
Um dann k-means auszuführen, würde ich folgendes Modell angeben:
Die Klassenzugehörigkeit basiert also nur auf dem Abstand zu den Mitteln der beobachteten Variablen. Wie in anderen Antworten angegeben, haben die Abweichungen nichts damit zu tun.
Das Schöne an mplus ist, dass es sich um verschachtelte Modelle handelt und Sie direkt testen können, ob die Einschränkungen zu einer schlechteren Anpassung führen oder nicht. Außerdem können Sie Unterschiede in der Klassifizierung zwischen den beiden Methoden vergleichen. Beide Modelle können übrigens mithilfe eines EM-Algorithmus geschätzt werden, sodass sich der Unterschied mehr auf das Modell bezieht.
Wenn Sie im 3D-Raum denken, bedeutet die 3, dass Sie einen Punkt bilden ... und die Varianzen die drei Achsen eines Ellipsoids, die durch diesen Punkt verlaufen. Wenn alle drei Varianzen gleich sind, erhalten Sie eine Kugel.
quelle