Ich untersuche die Verwendung von statistischen Signifikanztests (SST), um die Ergebnisse der Clusteranalyse zu validieren. Ich habe mehrere Artikel zu diesem Thema gefunden, z
- " Statistische Signifikanz der Clusterbildung für hochdimensionale Daten mit geringer Stichprobengröße " von Liu, Yufeng et al. (2008)
- " Über einige Signifikanztests in der Clusteranalyse ", von Bock (1985)
Ich bin jedoch daran interessiert, Literatur zu finden, die argumentiert, dass SST NICHT zur Validierung von Ergebnissen der Clusteranalyse geeignet ist. Die einzige Quelle, von der ich dies behauptet habe, ist eine Webseite eines Softwareanbieters
Um klarzustellen:
Ich bin daran interessiert zu testen, ob eine signifikante Clusterstruktur als Ergebnis einer Clusteranalyse gefunden wurde. Daher würde ich gerne von Artikeln erfahren, die die Besorgnis "über die Möglichkeit von Post-hoc-Tests der Ergebnisse explorativer Daten" unterstützen oder widerlegen Analyse zur Suche nach Clustern ".
Ich habe gerade eine Arbeit aus dem Jahr 2003 mit dem Titel " Clustering and Classification Methods " von Milligan und Hirtle gefunden, der besagt, dass die Verwendung von ANOVA eine ungültige Analyse darstellt, da die Daten den Gruppen keine zufälligen Zuordnungen aufweisen.
Antworten:
Es ist ziemlich offensichtlich, dass Sie nicht (naiv) auf Verteilungsunterschiede für Gruppen testen können, die mit denselben Daten definiert wurden. Dies wird als "selektives Testen", "doppeltes Eintauchen", "zirkuläre Inferenz" usw. bezeichnet.
Ein Beispiel wäre die Durchführung eines T-Tests für die Höhen von "großen" und "kleinen" Personen in Ihren Daten. Die Null wird (fast) immer abgelehnt.
Allerdings kann man die Clustering-Phase in der Testphase in der Tat erklären. Ich bin jedoch mit einer bestimmten Referenz, die das tut, nicht vertraut, aber ich vermute, dass dies hätte getan werden müssen.
quelle
Anstelle eines Hypothesentests mit einem gegebenen Test würde ich Bootstrapping-Mittel oder andere zusammenfassende Schätzungen zwischen Clustern empfehlen. Zum Beispiel könnten Sie sich auf Perzentil-Bootstrap mit mindestens 1000 Samples verlassen. Der entscheidende Punkt ist, das Clustering unabhängig auf jedes Bootstrap-Beispiel anzuwenden.
Dieser Ansatz ist recht robust, liefert Hinweise auf Unterschiede und stützt Ihre Behauptung, dass zwischen den Clustern erhebliche Unterschiede bestehen. Darüber hinaus könnten Sie eine andere Variable (z. B. die Differenz zwischen Clustern) generieren, und die Bootstrap-Schätzungen einer solchen Differenzvariablen ähneln einem formalen Hypothesentest.
quelle