Unterschied zwischen Standard- und sphärischen k-Means-Algorithmen

Die Frage ist:

Was ist der Unterschied zwischen klassischen k-Mitteln und sphärischen k-Mitteln?

Klassisches K-bedeutet:

In klassischen k-Mitteln versuchen wir, einen euklidischen Abstand zwischen dem Clusterzentrum und den Mitgliedern des Clusters zu minimieren. Die Intuition dahinter ist, dass der radiale Abstand vom Clusterzentrum zum Elementstandort für alle Elemente dieses Clusters "gleich" oder "ähnlich" sein sollte.

Der Algorithmus ist:

Festlegen der Anzahl der Cluster (auch Clusteranzahl genannt)
Initialisierung durch zufällige Zuweisung von Punkten im Raum zu Cluster-Indizes
Wiederholen, bis sie zusammenlaufen
- Suchen Sie für jeden Punkt den nächsten Cluster und weisen Sie dem Cluster einen Punkt zu
- Ermitteln Sie für jeden Cluster den Mittelwert der Mitgliederpunkte und den Mittelwert des Update Centers
- Der Fehler ist die Norm der Entfernung von Clustern

Kugelförmiges K-bedeutet:

Bei sphärischen k-Mitteln besteht die Idee darin, den Mittelpunkt jedes Clusters so festzulegen, dass der Winkel zwischen den Komponenten sowohl gleichmäßig als auch minimal wird. Die Intuition ist wie das Betrachten von Sternen - die Punkte sollten einen gleichmäßigen Abstand voneinander haben. Dieser Abstand ist einfacher als "Cosinus-Ähnlichkeit" zu quantifizieren, bedeutet jedoch, dass es keine "Milchstraße" -Galaxien gibt, die große helle Bereiche über dem Himmel der Daten bilden. (Ja, ich versuche in diesem Teil der Beschreibung mit Oma zu sprechen .)

Weitere technische Version:

Denken Sie an Vektoren, die Objekte, die Sie als Pfeile mit Ausrichtung und fester Länge darstellen. Es kann überall übersetzt werden und derselbe Vektor sein. ref

Die Orientierung des Punktes im Raum (sein Winkel von einer Referenzlinie) kann unter Verwendung der linearen Algebra, insbesondere des Punktproduktes, berechnet werden.

Wenn wir alle Daten so verschieben, dass sich ihr Ende am selben Punkt befindet, können wir "Vektoren" nach ihrem Winkel vergleichen und ähnliche Daten in einem einzigen Cluster gruppieren.

Zur Verdeutlichung sind die Längen der Vektoren skaliert, so dass sie leichter mit dem "Augapfel" verglichen werden können.

Man könnte es sich als eine Konstellation vorstellen. Die Sterne in einem einzelnen Cluster sind in gewisser Weise nahe beieinander. Dies sind meine Augapfel als Sternbilder.

Der Wert des allgemeinen Ansatzes besteht darin, dass wir Vektoren konstruieren können, die ansonsten keine geometrische Dimension haben, wie bei der tf-idf-Methode, bei der die Vektoren Worthäufigkeiten in Dokumenten sind. Zwei hinzugefügte "und" Wörter entsprechen nicht einem "das". Wörter sind nicht fortlaufend und nicht numerisch. Sie sind im geometrischen Sinne nicht physisch, aber wir können sie geometrisch erfinden und dann geometrische Methoden anwenden, um sie zu handhaben. Sphärische k-Mittel können verwendet werden, um basierend auf Wörtern Cluster zu bilden.

Die (2d zufälligen, kontinuierlichen) Daten waren also:

[\begin{matrix} x 1 & y 1 & x 2 & y 2 & G r O u p \\ 0 & - 0,8 & - 0.2013 & - 0,7316 & B \\ - 0,8 & 0,1 & - 0,9524 & 0,3639 & EIN \\ 0,2 & 0,3 & 0,2061 & - 0,1434 & C \\ 0,8 & 0,1 & 0,4787 & 0,153 & B \\ - 0,7 & 0,2 & - 0,7276 & 0,3825 & EIN \\ 0.9 & 0.9 & 0,748 & 0,6793 & C \end{matrix}]

$\begin{bmatrix} x1&y1&x2&y2&group\\ 0&-0.8&-0.2013&-0.7316&B\\ -0.8&0.1&-0.9524&0.3639&A\\ 0.2&0.3&0.2061&-0.1434&C\\ 0.8&0.1&0.4787&0.153&B\\ -0.7&0.2&-0.7276&0.3825&A\\ 0.9&0.9&0.748&0.6793&C\\ \end{bmatrix}$

Ein paar Punkte:

Sie projizieren auf eine Einheitskugel, um Unterschiede in der Dokumentlänge zu berücksichtigen.

Lassen Sie uns einen tatsächlichen Prozess durcharbeiten und sehen, wie (schlecht) mein "Augenzwinkern" war.

Das Verfahren ist:

(implizit im Problem) Verbinde Vektoren-Schwänze am Ursprung
Projizieren auf eine Einheitskugel (um Unterschiede in der Dokumentlänge zu berücksichtigen)
Verwenden Sie Clustering, um die " Cosinus-Unähnlichkeit " zu minimieren.

J = \sum_{ich} d (x_{ich}, p_{c (ich)})

$J = \sum_{i} d \left( x_{i},p_{c\left( i \right)} \right)$ wobei

d (x, p) = 1 - c O s (x, p) = \frac{⟨ x, p ⟩}{‖ x ‖ ‖ p ‖}

$d \left( x,p \right) = 1- cos \left(x,p\right) = \frac{\langle x,p \rangle}{\left \|x \right \|\left \|p \right \|}$

(weitere Änderungen folgen in Kürze)

Links:

EngrStudent - Setzen Sie Monica wieder ein
quelle

In Textdateien denke ich, dass die Funktion "diff", die Zeichen ausrichtet oder Änderungen mit Gewichten anzeigt, eine nützliche Vorverarbeitung für "nahe beieinander liegende" Texte sein kann, um das sinnvolle Clustering zu verbessern.

EngrStudent - Reinstate Monica

Ich erhalte "Zugang verboten" unter dem Link in # 1 ( sci.utah.edu/~weiliu/research/clustering_fmri/… )

David Doria

@ David - ich auch. Immer in Bewegung ist das ... Internet? Einen Moment bitte.

EngrStudent - Wiedereinsetzung von Monica

Nach einigem Zögern habe ich beschlossen, diese Antwort derzeit abzustimmen. Es ist nicht nur zu "Oma" Erklärung, es ist ungenau.

radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that cluster

klingt einfach falsch oder stumpf. In both uniform and minimal the angle between components"Komponenten" ist nicht definiert. Ich hoffe, dass Sie die potenziell gute Antwort verbessern können, wenn Sie sie etwas strenger und ausführlicher ausführen.

TTNPHNS

Unterschied zwischen Standard- und sphärischen k-Means-Algorithmen

Antworten: