Verwendung eines statistischen Signifikanztests zur Validierung der Clusteranalyseergebnisse

13

Ich untersuche die Verwendung von statistischen Signifikanztests (SST), um die Ergebnisse der Clusteranalyse zu validieren. Ich habe mehrere Artikel zu diesem Thema gefunden, z

  • " Statistische Signifikanz der Clusterbildung für hochdimensionale Daten mit geringer Stichprobengröße " von Liu, Yufeng et al. (2008)
  • " Über einige Signifikanztests in der Clusteranalyse ", von Bock (1985)

Ich bin jedoch daran interessiert, Literatur zu finden, die argumentiert, dass SST NICHT zur Validierung von Ergebnissen der Clusteranalyse geeignet ist. Die einzige Quelle, von der ich dies behauptet habe, ist eine Webseite eines Softwareanbieters

Um klarzustellen:

Ich bin daran interessiert zu testen, ob eine signifikante Clusterstruktur als Ergebnis einer Clusteranalyse gefunden wurde. Daher würde ich gerne von Artikeln erfahren, die die Besorgnis "über die Möglichkeit von Post-hoc-Tests der Ergebnisse explorativer Daten" unterstützen oder widerlegen Analyse zur Suche nach Clustern ".

Ich habe gerade eine Arbeit aus dem Jahr 2003 mit dem Titel " Clustering and Classification Methods " von Milligan und Hirtle gefunden, der besagt, dass die Verwendung von ANOVA eine ungültige Analyse darstellt, da die Daten den Gruppen keine zufälligen Zuordnungen aufweisen.

DPS
quelle
Dies ist eine gute Frage, aber es sollte darauf hingewiesen werden, dass sie so formuliert ist, dass es den Anschein einer Zweiteilung gibt: Entweder können Sie die Bedeutung von Clustering testen oder nicht. Die Situation ist jedoch anders, weil "Clusteranalyse" verschiedene Dinge bedeutet. In den referenzierten Veröffentlichungen liegt der Schwerpunkt auf der Prüfung, ob Anhaltspunkte für eine Clusterbildung vorliegen. Im Softwarehandbuch wird zu Recht die Möglichkeit einer Post-hoc-Prüfung der Ergebnisse einer explorativen Datenanalyse zur Ermittlung von Clustern zur Besorgnis erhoben . Hier besteht kein Widerspruch.
whuber
Danke für die Antwort. Sie haben Recht, wie ich die Frage gestellt habe. Ich bin daran interessiert zu testen, ob eine signifikante Clusterstruktur als Ergebnis einer Clusteranalyse gefunden wurde. Daher würde ich gerne von Artikeln erfahren, die die Besorgnis "über die Möglichkeit von Post-hoc-Tests der Ergebnisse explorativer Daten" unterstützen oder widerlegen Analyse zum Auffinden von Clustern ". Ich habe gerade eine Arbeit von Milligan und Hirtle aus dem Jahr 2003 "Clustering and Classification Methods" gefunden, in der es heißt, dass die Verwendung von ANOVA eine ungültige Analyse wäre, da die Daten den Gruppen keine zufälligen Zuordnungen aufweisen.
DPS
Könnte helfen: Von der Wissenschaft geblendet: Die Folgen unzureichend validierter Clusteranalyse-Lösungen für das Management, mrs.org.uk/ijmr_article/article/78841
rolando2

Antworten:

3

Es ist ziemlich offensichtlich, dass Sie nicht (naiv) auf Verteilungsunterschiede für Gruppen testen können, die mit denselben Daten definiert wurden. Dies wird als "selektives Testen", "doppeltes Eintauchen", "zirkuläre Inferenz" usw. bezeichnet.

Ein Beispiel wäre die Durchführung eines T-Tests für die Höhen von "großen" und "kleinen" Personen in Ihren Daten. Die Null wird (fast) immer abgelehnt.

Allerdings kann man die Clustering-Phase in der Testphase in der Tat erklären. Ich bin jedoch mit einer bestimmten Referenz, die das tut, nicht vertraut, aber ich vermute, dass dies hätte getan werden müssen.

JohnRos
quelle
Ich bin damit einverstanden, dass die Null fast immer zurückgewiesen wird, wenn ein Signifikanztest für die verschiedenen Clustergruppen angewendet wird. Dies sollte jedoch nur der Fall sein, wenn es durch das Clustering tatsächlich gelungen ist, Gruppen für alle in der Zertifizierungsstelle berücksichtigten Variablen zu trennen. Könnte man nicht einen Signifikanztest verwenden, um festzustellen, ob es Variablen gibt, die nicht gut zwischen den Gruppen getrennt sind (das heißt, man wendet einen Test für jede Variable an)? Könnten Sie bitte den statistischen Grund erläutern, warum dies nicht empfohlen / sinnvoll ist?
Luke
Das formale Argument ist, dass der Fehlerterm jeder Messung nicht um Null zentriert ist. Denken Sie an mein großes / kurzes Beispiel: Alle Personen stammen aus der gleichen Verteilung, aber die "große" Gruppe weist Fehler mit positivem Mittelwert und dem "kurzen" negativen Mittelwert auf.
JohnRos
0

Anstelle eines Hypothesentests mit einem gegebenen Test würde ich Bootstrapping-Mittel oder andere zusammenfassende Schätzungen zwischen Clustern empfehlen. Zum Beispiel könnten Sie sich auf Perzentil-Bootstrap mit mindestens 1000 Samples verlassen. Der entscheidende Punkt ist, das Clustering unabhängig auf jedes Bootstrap-Beispiel anzuwenden.

Dieser Ansatz ist recht robust, liefert Hinweise auf Unterschiede und stützt Ihre Behauptung, dass zwischen den Clustern erhebliche Unterschiede bestehen. Darüber hinaus könnten Sie eine andere Variable (z. B. die Differenz zwischen Clustern) generieren, und die Bootstrap-Schätzungen einer solchen Differenzvariablen ähneln einem formalen Hypothesentest.

Joe_74
quelle