Bedeuten geringe Silhouettenbreiten, dass den Daten nur eine geringe Struktur zugrunde liegt?

10

Ich bin neu in der Sequenzanalyse und habe mich gefragt, wie Sie reagieren, wenn die durchschnittlichen Silhouettenbreiten (ASW) aus Clusteranalysen von auf Optimal Matching basierenden Unähnlichkeitsmatrizen niedrig sind (ca. 25). Wäre es angebracht zu folgern, dass es wenig zugrunde liegende Struktur gibt, die es ermöglichen würde, die Sequenzen zu gruppieren? Könnten Sie die niedrige ASW ignorieren, die auf anderen Maßstäben für die Clusterqualität basiert (ich habe einige unten eingefügt)? Oder ist es wahrscheinlich, dass während der Sequenzanalyse oder nachfolgender Clusteranalysen getroffene Entscheidungen für die niedrigen ASW-Zahlen verantwortlich sind?

Anregungen wäre dankbar. Vielen Dank.

Falls mehr Kontext benötigt wird:

Ich untersuche 624 Sequenzen von Arbeitszeitinkongruenzen (dh Fehlpaarungen zwischen der Anzahl der Stunden, die eine Person in einer Woche bevorzugt, und der Anzahl der Stunden, die sie tatsächlich arbeitet) unter Menschen im Alter von 20 Jahren. Alle Sequenzen, die ich untersuche, haben eine Länge von 10. Mein Sequenzobjekt hat fünf Zustände (M = will mehr Stunden, S = will die gleichen Stunden, F = will weniger Stunden, O = arbeitslos und U = arbeitslos ).

Ich habe nicht systematisch berücksichtigt, wie sich die ASW-Ergebnisse bei verschiedenen Kombinationen von Ansätzen unterscheiden. Trotzdem habe ich niedrige und mittlere Indel-Kosten (.1 und .6 der maximalen Substitutionskosten - mir ist die Reihenfolge der Ereignisse wichtiger als deren Zeitpunkt) und verschiedene Clustering-Verfahren (Station, Durchschnitt und Pam) ausprobiert. Mein Gesamteindruck ist, dass die ASW-Zahlen niedrig bleiben.

Möglicherweise sind niedrige ASW-Ergebnisse sinnvoll. Ich würde erwarten, dass diese Zustände in einer Vielzahl unterschiedlicher Reihenfolgen vorliegen, und die Zustände können wiederholt werden. Das Entfernen doppelter Beobachtungen senkt nur das N von 624 auf 536. Das Studium der Daten zeigt, dass es tatsächlich ein gutes Stück Abwechslung und Sequenzen gibt, die ich als sehr unterschiedlich betrachten würde, z. B. Menschen, die die ganze Zeit die gleichen Stunden wollten, entwickelten eine Fehlanpassung, die behoben wurde eine Nichtübereinstimmung und pendelte zwischen einer Nichtübereinstimmung hin und her. Vielleicht ist das Fehlen klar differenzierter Cluster nicht dasselbe wie das Fehlen interessanter Variationen. Trotzdem scheinen mir die schwachen Clusterergebnisse keine gute Möglichkeit zu geben, die Sequenzen zusammenzufassen.

Ergebnisse der Ward-Methode mit Indel auf 0,1 der Substitutionskosten von 2 Diese Statistiken scheinen darauf hinzudeuten, dass eine 6-Cluster-Lösung gut sein könnte. Die ASW ist jedoch niedrig - zumindest für Lösungen mit einer angemessenen Anzahl von Clustern (2 oder 3 sind zu wenige).

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08
JeremyR
quelle

Antworten:

11

Die ASW ist ein Maß für die Kohärenz einer Clustering-Lösung. Ein hoher ASW-Wert bedeutet, dass die Cluster homogen sind (alle Beobachtungen liegen nahe am Clusterzentrum) und dass sie gut getrennt sind. Nach Kaufmann und Rousseuw (1990) bedeutet ein Wert unter 0,25, dass die Daten nicht strukturiert sind. Zwischen 0,25 und 0,5 können die Daten strukturiert sein, aber es kann auch ein Kunstgriff sein. Bitte beachten Sie, dass diese Werte nur Richtwerte sind und nicht als Entscheidungsschwelle verwendet werden sollten. Diese Werte sind nicht theoretisch definiert (sie basieren nicht auf einem p-Wert), sondern basieren auf den Erfahrungen der Autoren. Entsprechend diesen niedrigen ASW-Werten scheinen Ihre Daten daher ziemlich unstrukturiert zu sein. Wenn der Zweck der Clusteranalyse nur beschreibend ist, können Sie argumentieren, dass einige (aber nur einige) der hervorstechendsten Muster aufgedeckt werden. Jedoch,

Sie können auch versuchen, einen Blick auf die ASW-Werte "pro Cluster" zu werfen (dies wird durch die Funktion angegeben wcClusterQuality). Möglicherweise sind einige Ihrer Cluster gut definiert und andere sind "falsch" (ASW <0), was zu einem niedrigen Gesamt-ASW-Wert führt.

Sie können versuchen, Bootstrap-Strategien zu verwenden, die Ihnen einen besseren Hinweis geben sollten. In R kann die Funktion clusterbootim Paket fpcfür diesen Zweck verwendet werden (siehe Hilfeseite). Es funktioniert jedoch nicht mit gewichteten Daten. Wenn Ihre Daten ungewichtet sind, lohnt es sich, sie auszuprobieren.

Schließlich möchten Sie vielleicht Ihre Daten und Ihre Kategorisierung genauer betrachten. Möglicherweise sind Ihre Kategorien zu instabil oder nicht genau definiert. Dies scheint hier jedoch nicht der Fall zu sein.

Wie Sie gesagt haben, "ist das Fehlen klar differenzierter Cluster nicht dasselbe wie das Fehlen interessanter Variationen". Es gibt andere Methoden, um die Variabilität Ihrer Sequenzen zu analysieren, z. B. die Diskrepanzanalyse. Mit diesen Methoden können Sie die Zusammenhänge zwischen Sequenzen und erklärenden Faktoren untersuchen. Sie können beispielsweise versuchen, Sequenzregressionsbäume zu erstellen (Funktion "seqtree" im Paket TraMineR).

Matthias Studer
quelle