Ich stehe oft vor dem Problem, eine bestimmte Anzahl von Clustern auswählen zu müssen. Die Partition, die ich am Ende wähle, basiert häufiger auf visuellen und theoretischen Bedenken als auf Qualitätskriterien.
Ich habe zwei Hauptfragen.
Der erste betrifft die allgemeine Idee der Clusterqualität. Soweit ich weiß, schlagen Kriterien wie der "Ellbogen" einen optimalen Wert in Bezug auf eine Kostenfunktion vor. Das Problem, das ich mit diesem Rahmen habe, ist, dass die optimalen Kriterien für theoretische Überlegungen blind sind, so dass es einen gewissen Grad an Komplexität (in Bezug auf Ihr Studienfach) gibt, der in Ihren endgültigen Gruppen / Clustern immer gewünscht wird.
Darüber hinaus hängt der optimale Wert , wie hier erläutert , auch mit Einschränkungen des "nachgelagerten Zwecks" (z. B. wirtschaftlichen Einschränkungen) zusammen. Überlegen Sie also , was Sie mit den Clustering-Angelegenheiten tun werden .
Eine Einschränkung besteht offensichtlich darin, sinnvolle / interpretierbare Cluster zu finden. Je mehr Cluster Sie haben, desto schwieriger ist es, sie zu interpretieren.
Dies ist jedoch nicht immer der Fall. Sehr oft stelle ich fest, dass 8, 10 oder 12 Cluster die minimale "interessante" Anzahl von Clustern sind, die ich in meiner Analyse haben möchte.
Sehr oft deuten Kriterien wie der Ellbogen jedoch auf viel weniger Cluster hin, im Allgemeinen 2,3 oder 4.
Q1 . Was ich gerne wissen würde, ist, was die beste Argumentationslinie ist, wenn Sie sich entscheiden, mehr Cluster als die durch bestimmte Kriterien (wie den Ellbogen) vorgeschlagene Lösung zu wählen . Intuitiv sollte das Mehr immer besser sein, wenn es keine Einschränkungen gibt (wie die Verständlichkeit der Gruppen, die Sie erhalten, oder im Coursera- Beispiel, wenn Sie eine sehr große Geldsumme haben). Wie würden Sie dies in einem wissenschaftlichen Zeitschriftenartikel argumentieren?
Eine andere Möglichkeit, dies auszudrücken, besteht darin, zu sagen, dass Sie, sobald Sie die Mindestanzahl von Clustern (mit diesen Kriterien) ermittelt haben, überhaupt begründen müssen, warum Sie mehr Cluster als diese ausgewählt haben? Sollte die Rechtfertigung nicht nur bei der Auswahl der minimalen sinnvollen Anzahl von Clustern erfolgen?
Q2 . In diesem Zusammenhang verstehe ich nicht, wie bestimmte Qualitätsmaßstäbe wie die Silhouette mit zunehmender Anzahl von Clustern tatsächlich abnehmen können. Ich sehe in der Silhouette keine Bestrafung für die Anzahl der Cluster. Wie kann das sein? Theoretisch ist die Clusterqualität umso höher , je mehr Cluster Sie haben .
# R code
library(factoextra)
data("iris")
ir = iris[,-5]
# Hierarchical Clustering, Ward.D
# 5 clusters
ec5 = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean',
hc_method = 'ward.D', graph = T, k = 5)
# 20 clusters
ec20 = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean',
hc_method = 'ward.D', graph = T, k = 20)
a = fviz_silhouette(ec5) # silhouette plot
b = fviz_silhouette(ec20) # silhouette plot
c = fviz_cluster(ec5) # scatter plot
d = fviz_cluster(ec20) # scatter plot
grid.arrange(a,b,c,d)
Theoretically, the more clusters you have, the greater is the cluster quality
Absolut nein, nicht unbedingt. Die meisten internen Clustering-Kriterien (einschließlich) des Silhouette-Index sind auf diese oder jene Weise in ihrer Formel "normalisiert" oder kalibriert, um zu versuchen, bei der besten Anzahl (n) von Clustern k extrem zu sein, so dass k kleiner oder größer als diese Anzahl ist ergibt einen niedrigeren Kriteriumswert. Das "Elbow SSw" -Kriterium ist sowieso nicht normalisiert, und es ist schlecht und nicht erwägenswert. Verwenden Sie stattdessen Clinski-Harabasz oder Davies-Bouldin als Normalisierungen.what is the best line of argument when you decide to choose more clusters rather than the solution proposed by a certain criteria
Wenn Sie meine Facetten unter dem obigen Link lesen, werden Sie verstehen, dass es keine einzigen besten oder synthetisierten Argumente geben kann. Schließlich ist das beste Argument (für ein kleineres oder größeres k) seine Überzeugungskraft für sich selbst oder das Publikum. Die menschliche Entscheidung basiert nicht auf Argumenten, sondern ist willkürlich. argumentieren heißt erklären , entschuldigen, was niemals entschuldigt werden kann.Antworten:
Die Schlüssel finden aussagekräftige Cluster und was Sie in den resultierenden Clustern schätzen.
Lassen Sie mich anhand eines einfachen Beispiels veranschaulichen. Das Beispiel sind zwei Gaußsche Cluster, die ziemlich gut voneinander getrennt sind. Wenn wir die Daten mit k-means in 2 oder 3 Cluster unterteilen, erhalten wir folgende Partitionen:
Silhouette sagt, dass Sie mit zwei Clustern besser dran sind als mit drei.
Es ist nützlich zu sehen, warum die Silhouette gesunken ist. Zunächst ist leicht zu erkennen, dass sich die Silhouette für den Cluster auf der rechten Seite kaum verändert hat. Der Grund für den starken Rückgang der durchschnittlichen Silhouette ist der Cluster auf der linken Seite, der in zwei Teile geteilt wurde. Warum hat Silhouette nicht so? Wie gesagt, Sie müssen sich ansehen, was die Metrik bevorzugt. Für jeden Punkt vergleicht die Silhouette den durchschnittlichen Abstand zwischen dem Punkt und den anderen Punkten im selben Cluster mit dem durchschnittlichen Abstand zwischen diesem Punkt und dem nächsten anderen Cluster. Wenn es zwei Cluster gab, waren die Punkte in jedem der beiden Cluster gut vom anderen Cluster getrennt. Nicht so bei drei Clustern. Die Punkte in den beiden Clustern links liegen genau gegeneinander. So kann die Metrik sinken. Silhouette belohnt nicht nur Cluster, bei denen die Punkte in einem Cluster nahe beieinander liegen. es bestraft auch Cluster, die nicht gut voneinander getrennt sind.
Das kommt also zum "Downstream-Zweck". Es gibt Zeiten, in denen es nicht so wichtig ist, gut getrennte Cluster zu haben. Sie können beispielsweise k-means Clustering für die Farben in einem Bild verwenden, um ähnliche Farben für die Bildkomprimierung zu gruppieren. In diesem Fall spielt es keine Rolle, ob manchmal zwei Cluster nahe beieinander liegen, solange jeder Cluster einigermaßen konsistent (kompakt) ist. Häufig verwenden Benutzer jedoch Clustering, um die grundlegendere Struktur ihrer Daten zu verstehen. Im obigen Beispiel mit zwei Gaußschen Werten zeigen zwei Cluster die zugrunde liegende Struktur besser als drei Cluster. Wenn Sie nach einer Struktur suchen, möchten Sie die Anzahl der Cluster, die die natürlichen Gruppierungen in Ihren Daten am besten darstellen. Dies sind jedoch zwei verschiedene Ziele:
eine Gruppierung von Punkten, bei denen Punkte in demselben Cluster nahe beieinander liegen und
Eine Gruppierung, die auch verschiedene Cluster trennt
Ihr Argument, dass mehr Cluster immer besser sein sollten, ist in Ordnung, solange Sie nur möchten, dass Punkte im selben Cluster nahe beieinander liegen. Dies ist jedoch nicht gut, wenn Sie versuchen, die zugrunde liegende Struktur zu ermitteln. Die Struktur ist das, was in den Daten enthalten ist. Es ist keine Verbesserung, einen Cluster zu nehmen und zwei zu nennen.
quelle
divisive
Paradigma ist, aber imagglomerative
Paradigma ist jedes Individuum in erster Linie ein Cluster. Ich habe das Gefühl, dass in diesem Paradigma "je mehr desto besser". Wir zwingen nicht zwei Gruppen, sich zu trennen, sondern zwei Personen, sich zu einer Gruppe zusammenzuschließen. Ich frage mich dann, wie angemessen die Silhouette für agglomeratives Clustering ist. Was denken Sie?Beachten Sie, dass die Kreuzvalidierung auch bei Clusterproblemen verwendet werden kann.
In K bedeutet beispielsweise, dass eine zunehmende Anzahl von Clustern immer das Ziel verringert, das wir anpassen. Ein Extremfall wäre die Anzahl der Cluster, die der Anzahl der Datenpunkte entspricht, und das Ziel ist0 . Aber das ist ein überpassendes Modell und wird am Test-Set fehlschlagen.
Mein Vorschlag ist die Überprüfung des "Clustering-Qualitätsmaßes" beim Halten des Testdatensatzes.
quelle