Ich bin neu in der Sequenzanalyse und habe mich gefragt, wie Sie reagieren, wenn die durchschnittlichen Silhouettenbreiten (ASW) aus Clusteranalysen von auf Optimal Matching basierenden Unähnlichkeitsmatrizen niedrig sind (ca. 25). Wäre es angebracht zu folgern, dass es wenig zugrunde liegende Struktur gibt, die es ermöglichen würde, die Sequenzen zu gruppieren? Könnten Sie die niedrige ASW ignorieren, die auf anderen Maßstäben für die Clusterqualität basiert (ich habe einige unten eingefügt)? Oder ist es wahrscheinlich, dass während der Sequenzanalyse oder nachfolgender Clusteranalysen getroffene Entscheidungen für die niedrigen ASW-Zahlen verantwortlich sind?
Anregungen wäre dankbar. Vielen Dank.
Falls mehr Kontext benötigt wird:
Ich untersuche 624 Sequenzen von Arbeitszeitinkongruenzen (dh Fehlpaarungen zwischen der Anzahl der Stunden, die eine Person in einer Woche bevorzugt, und der Anzahl der Stunden, die sie tatsächlich arbeitet) unter Menschen im Alter von 20 Jahren. Alle Sequenzen, die ich untersuche, haben eine Länge von 10. Mein Sequenzobjekt hat fünf Zustände (M = will mehr Stunden, S = will die gleichen Stunden, F = will weniger Stunden, O = arbeitslos und U = arbeitslos ).
Ich habe nicht systematisch berücksichtigt, wie sich die ASW-Ergebnisse bei verschiedenen Kombinationen von Ansätzen unterscheiden. Trotzdem habe ich niedrige und mittlere Indel-Kosten (.1 und .6 der maximalen Substitutionskosten - mir ist die Reihenfolge der Ereignisse wichtiger als deren Zeitpunkt) und verschiedene Clustering-Verfahren (Station, Durchschnitt und Pam) ausprobiert. Mein Gesamteindruck ist, dass die ASW-Zahlen niedrig bleiben.
Möglicherweise sind niedrige ASW-Ergebnisse sinnvoll. Ich würde erwarten, dass diese Zustände in einer Vielzahl unterschiedlicher Reihenfolgen vorliegen, und die Zustände können wiederholt werden. Das Entfernen doppelter Beobachtungen senkt nur das N von 624 auf 536. Das Studium der Daten zeigt, dass es tatsächlich ein gutes Stück Abwechslung und Sequenzen gibt, die ich als sehr unterschiedlich betrachten würde, z. B. Menschen, die die ganze Zeit die gleichen Stunden wollten, entwickelten eine Fehlanpassung, die behoben wurde eine Nichtübereinstimmung und pendelte zwischen einer Nichtübereinstimmung hin und her. Vielleicht ist das Fehlen klar differenzierter Cluster nicht dasselbe wie das Fehlen interessanter Variationen. Trotzdem scheinen mir die schwachen Clusterergebnisse keine gute Möglichkeit zu geben, die Sequenzen zusammenzufassen.
Ergebnisse der Ward-Methode mit Indel auf 0,1 der Substitutionskosten von 2 Diese Statistiken scheinen darauf hinzudeuten, dass eine 6-Cluster-Lösung gut sein könnte. Die ASW ist jedoch niedrig - zumindest für Lösungen mit einer angemessenen Anzahl von Clustern (2 oder 3 sind zu wenige).
PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC
cluster2 0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3 0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4 0.54 0.74 0.71 0.25 0.25 88.66 0.30 203.72 0.50 0.14
cluster5 0.59 0.83 0.79 0.25 0.25 75.85 0.33 183.21 0.54 0.09
cluster6 0.59 0.85 0.82 0.24 0.25 66.94 0.35 164.51 0.57 0.08
cluster7 0.47 0.79 0.75 0.18 0.19 64.09 0.38 154.47 0.60 0.12
cluster8 0.47 0.81 0.77 0.20 0.21 59.47 0.40 152.36 0.63 0.11
cluster9 0.48 0.84 0.80 0.19 0.21 56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21 53.24 0.44 140.18 0.67 0.08
quelle