Ich weiß, dass es einen K-Mittelwert-Clustering-Algorithmus und einen K-Median gibt. Einer, der den Mittelwert als Mittelpunkt des Clusters verwendet, und der andere verwenden den Median. Meine Frage ist: wann / wo welche verwenden?
clustering
k-means
Jack Twain
quelle
quelle
Antworten:
k-means minimiert die Varianz innerhalb des Clusters, was euklidischen Abständen im Quadrat entspricht.
Im Allgemeinen tut das arithmetische Mittel dies. Es tut nicht optimize Entfernungen, sondern quadratische Abweichungen vom Mittelwert.
k-Mediane minimieren absolute Abweichungen, die der Manhattan-Entfernung entsprechen.
Im Allgemeinen sollte dies der Median pro Achse tun. Es ist ein guter Schätzer für den Mittelwert, wenn Sie die Summe der absoluten Abweichungen (dh sum_i abs (x_i-y_i)) anstelle der quadrierten Abweichungen minimieren möchten.
Es geht nicht um Genauigkeit. Es ist eine Frage der Richtigkeit. ;-)
Hier ist also Ihr Entscheidungsbaum:
Einige Ausnahmen: Soweit ich das beurteilen kann, hängt die Maximierung der Kosinusähnlichkeit mit der Minimierung des euklidischen Quadratabstands für L2-normalisierte Daten zusammen. Also, wenn Ihre Daten L2 normalisiert sind; und Sie l2-normalisieren Ihre Mittelwerte bei jeder Iteration, dann können Sie wieder k-Mittelwerte verwenden.
quelle
Wenn Sie eine Analyse ohne Berücksichtigung der möglichen Auswirkung von Extremwerten durchführen möchten, verwenden Sie k bedeutet, wenn Sie jedoch genauer sein möchten, verwenden Sie k Median
quelle