Kann jemand die Vor- und Nachteile von Hierarchical Clustering erklären?
- Hat hierarchisches Clustering die gleichen Nachteile wie K?
- Was sind die Vorteile von Hierarchical Clustering gegenüber K?
- Wann sollten wir K-Mittel anstelle von Hierarchical Clustering verwenden und umgekehrt?
Antworten auf diesen Beitrag erklären die Nachteile von k sehr gut. Wie man die Nachteile von K-means versteht
clustering
k-means
unsupervised-learning
hierarchical-clustering
GeorgeOfTheRF
quelle
quelle
Antworten:
Während means versucht, ein globales Ziel (Varianz der Cluster) zu optimieren und ein lokales Optimum zu erreichen, zielt die agglomerative hierarchische Clusterbildung darauf ab, bei jeder Clusterfusion den besten Schritt zu finden (Greedy-Algorithmus), der exakt ausgeführt wird, aber zu einer potenziell suboptimalen Lösung führt .k
Man sollte hierarchisches Clustering verwenden, wenn die zugrunde liegenden Daten eine hierarchische Struktur haben (wie die Korrelationen an den Finanzmärkten) und Sie die Hierarchie wiederherstellen möchten. Sie können dazu immer noch Mittel anwenden , es kann jedoch vorkommen, dass Partitionen (von den gröbsten (alle Datenpunkte in einem Cluster) bis zu den feinsten (jeder Datenpunkt ist ein Cluster)) nicht verschachtelt sind keine richtige Hierarchie.k
Wenn Sie sich mit feineren Clustering-Eigenschaften befassen möchten, sollten Sie flache Clustering- Methoden wie Mittel nicht mit hierarchischen Clustering-Methoden wie Single, Average, Complete Linkages vergleichen. Beispielsweise sind alle diese Cluster platzsparend, dh wenn Sie Cluster erstellen, verzerren Sie den Raum nicht, wohingegen hierarchische Cluster wie Ward nicht platzsparend sind, dh bei jedem Zusammenführungsschritt wird der metrische Raum verzerrt.k
Zusammenfassend kann gesagt werden, dass die Nachteile der hierarchischen Clustering-Algorithmen sehr unterschiedlich sein können. Einige haben möglicherweise ähnliche Eigenschaften wie : Ward zielt darauf ab, die Varianz zu optimieren, Single Linkage jedoch nicht. Sie können aber auch andere Eigenschaften haben: Ward erweitert den Raum, während Single Linkage wie Mittel platzsparend ist.kk k
- Bearbeiten, um die platzsparenden und den Raum erweiternden Eigenschaften zu präzisieren
Platzsparend: wobei der Abstand zwischen den Clustern und Sie zusammenführen möchten, und der Abstand zwischen den Datenpunkten ist. D i j C i C j d
: dh durch Zusammenführen von und der Algorithmus den Cluster weiter .
quelle
should use hierarchical clustering when underlying data has a hierarchical structure... and you want to recover the hierarchy
nicht unbedingt. Meistens eher im Gegenteil. Die Hierarchie von HC ist eher eine Geschichte des Algo als eine Struktur der Daten . Dennoch ist diese Frage letztendlich philosophisch / logisch, nicht so statistisch.Ward is not space-conserving, i.e. at each merging step it will distort the metric space
. Kannst du mehr darüber schreiben? Das ist nicht sehr klar.Ward is space-dilating, whereas Single Linkage is space-conserving like k-means
. Wollten Sie Space-Contracting für Single Linkage sagen?Skalierbarkeit
Flexibilität
Hier ist das hierarchische Clustering der klare Gewinner. Es ist nicht einmal ein Abstand erforderlich - jedes Maß kann verwendet werden, einschließlich Ähnlichkeitsfunktionen, indem einfach hohe Werte niedrigen Werten vorgezogen werden. Kategoriale Daten? benutze einfach zB Jaccard. Streicher? Versuchen Sie Levenshtein Abstand. Zeitfolgen? sicher. Gemischte Typdaten? Gower Abstand. Es gibt Millionen von Datensätzen, in denen Sie hierarchisches Clustering verwenden können, in denen Sie jedoch keine Mittel verwenden können.k
Modell
Kein Gewinner hier. Mittel erzielt hohe Punktzahlen, da es eine große Datenreduktion ergibt. Centroids sind einfach zu verstehen und zu benutzen. Hierarchisches Clustering erzeugt dagegen ein Dendrogramm. Ein Dendrogramm kann auch sehr hilfreich sein, um Ihren Datensatz zu verstehen.k
quelle
Ich wollte den anderen Antworten nur etwas hinzufügen, wie es in gewisser Weise einen starken theoretischen Grund gibt, bestimmte hierarchische Clustering-Methoden zu bevorzugen.
Bei der Clusteranalyse wird häufig davon ausgegangen, dass die Daten aus einer zugrunde liegenden Wahrscheinlichkeitsdichte abgetastet werden , auf die wir keinen Zugriff haben. Aber nehmen wir an, wir hätten Zugang dazu. Wie würden wir die Cluster von f definieren ?f f
Ein sehr natürlicher und intuitiver Ansatz besteht darin, zu sagen, dass die Cluster von Regionen mit hoher Dichte sind. Betrachten Sie beispielsweise die folgende Dichte mit zwei Spitzen:f
Indem wir eine Linie über den Graphen ziehen, induzieren wir eine Menge von Clustern. Wenn wir zum Beispiel bei eine Linie zeichnen , erhalten wir die beiden gezeigten Cluster. Wenn wir jedoch die Linie bei λ 3 zeichnen , erhalten wir einen einzelnen Cluster.λ1 λ3
Um dies genauer zu machen, nehmen wir an, dass wir ein willkürliches . Was sind die Cluster von f auf der Ebene λ ? Sie sind die verbundene Komponente der Superlevelmenge { x : f ( x ) ≥ λ } .λ>0 f λ {x:f(x)≥λ}
Jetzt habe ich einige Daten aus einer Dichte abgetastet. Kann ich diese Daten so gruppieren, dass der Clusterbaum wiederhergestellt wird? Insbesondere möchten wir, dass eine Methode in dem Sinne konsistent ist, dass unsere empirische Schätzung des Clusterbaums mit zunehmender Datenerfassung immer näher an den tatsächlichen Clusterbaum heranreicht.
Im Wesentlichen besagt die Hartigan-Konsistenz, dass unsere Clustering-Methode Regionen mit hoher Dichte angemessen trennen sollte. Hartigan untersuchte, ob Einzelverknüpfungscluster konsistent sein könnten, und stellte fest, dass sie in Dimensionen> 1 nicht konsistent sind. Das Problem, eine allgemeine, konsistente Methode zur Schätzung des Clusterbaums zu finden, lag erst vor wenigen Jahren vor, als Chaudhuri und Dasgupta einführten Robuste Einfachverbindung , die nachweislich konsistent ist. Ich würde vorschlagen, über ihre Methode zu lesen, da sie meiner Meinung nach ziemlich elegant ist.
Um Ihre Fragen zu beantworten, ist es in gewisser Weise richtig, hierarchische Cluster zu verwenden, wenn Sie versuchen, die Struktur einer Dichte wiederherzustellen. Beachten Sie jedoch die erschreckenden Anführungszeichen um "richtig" ... Letztendlich tendieren dichtebasierte Clustering-Methoden aufgrund des Fluches der Dimensionalität dazu, in hohen Dimensionen schlecht zu funktionieren, obwohl eine Definition von Clustering basierend auf Clustern Regionen mit hoher Wahrscheinlichkeit sind ist recht übersichtlich und intuitiv, wird jedoch häufig zugunsten von Methoden ignoriert, die in der Praxis eine bessere Leistung erbringen. Das heißt nicht, dass eine robuste Einfachverbindung nicht praktikabel ist - sie funktioniert tatsächlich recht gut bei Problemen in niedrigeren Dimensionen.
Abschließend möchte ich sagen, dass die Hartigan-Konsistenz in gewissem Sinne nicht unserer Intuition der Konvergenz entspricht. Das Problem ist , dass Hartigan Konsistenz ein Clusterverfahren zu stark ermöglicht über Segment Cluster , so dass ein Algorithmus Hartigan sein kann , konsistente, noch produzieren Clusterungen , die sehr unterschiedlich sind als der wahre Cluster Baum. Wir haben in diesem Jahr Arbeiten zu einem alternativen Konvergenzbegriff verfasst, der sich mit diesen Fragen befasst. Die Arbeit wurde in COLT 2015 unter "Beyond Hartigan Consistency: Verzerrungsmetrik für hierarchisches Clustering zusammenführen" veröffentlicht.
quelle
R
im pdfCluster- Paket implementiert ist . (Ich diskutiere es hier .)BEARBEITEN dank ttnphns: Ein Merkmal, das hierarchisches Clustering mit vielen anderen Algorithmen gemeinsam hat, ist die Notwendigkeit, ein Entfernungsmaß zu wählen. Dies hängt häufig stark von der jeweiligen Anwendung und den jeweiligen Zielen ab. Dies kann als zusätzliche Komplikation angesehen werden (ein weiterer zu wählender Parameter ...), aber auch als Aktivposten - mehr Möglichkeiten. Im Gegensatz dazu verwendet der klassische K-Mittelwert-Algorithmus speziell den euklidischen Abstand.
quelle