Annahmen der Clusteranalyse

16

Entschuldigung für die rudimentäre Frage, ich bin neu in dieser Form der Analyse und habe ein sehr begrenztes Verständnis der Prinzipien bis jetzt.

Ich habe mich nur gefragt, ob viele der parametrischen Annahmen für multivariate / univariate Tests für die Clusteranalyse zutreffen. Viele der Informationsquellen, die ich zur Clusteranalyse gelesen habe, enthalten keine Annahmen.

Mich interessiert insbesondere die Annahme der Unabhängigkeit von Beobachtungen. Ich verstehe, dass ein Verstoß gegen diese Annahme (z. B. bei ANOVA und MAVOVA) schwerwiegend ist, da er Schätzungen von Fehlern beeinflusst. Aus meiner bisherigen Lektüre geht hervor, dass die Clusteranalyse größtenteils eine beschreibende Technik ist (die nur in bestimmten Fällen statistische Inferenz beinhaltet). Sind dementsprechend Annahmen wie Unabhängigkeit und normal verteilte Daten erforderlich?

Alle Empfehlungen von Texten, die dieses Problem behandeln, würden sehr geschätzt. Danke vielmals.

Kyle Brown
quelle

Antworten:

7

Nun, Clustering-Techniken sind nicht auf entfernungsbasierte Methoden beschränkt, bei denen wir Gruppen statistischer Einheiten suchen, die in geometrischer Hinsicht ungewöhnlich nahe beieinander liegen. Es gibt auch eine Reihe von Techniken, die sich auf die Dichte (Cluster werden als "Regionen" im Merkmalsraum angesehen) oder die Wahrscheinlichkeitsverteilung stützen .

Letzterer Fall wird auch als modellbasiertes Clustering bezeichnet . Psychometriker verwenden den Begriff Latent Profile Analysis , um diesen speziellen Fall des Finite-Mixture-Modells zu bezeichnen , bei dem angenommen wird, dass sich die Population aus verschiedenen nicht beobachteten Gruppen oder latenten Klassen zusammensetzt und die gemeinsame Dichte aller manifesten Variablen eine Mischung dieser Klassen ist. spezifische Dichte. Eine gute Implementierung ist im Mclust- Paket oder in der Mplus- Software enthalten. Es können verschiedene klasseninvariante Kovarianzmatrizen verwendet werden (tatsächlich verwendet Mclust das BIC-Kriterium, um das optimale auszuwählen, während die Anzahl der Cluster variiert wird).

Das Standardmodell für latente Klassen geht auch davon aus, dass die beobachteten Daten aus einer Mischung von g multivariaten multinomialen Verteilungen stammen. Einen guten Überblick bietet die modellbasierte Clusteranalyse: a Defense von Gilles Celeux.

Da diese Methoden auf Verteilungsannahmen beruhen, können auch formale Tests oder Anpassungsgüteindizes verwendet werden, um über die Anzahl der Cluster oder Klassen zu entscheiden, was bei der entfernungsbasierten Clusteranalyse weiterhin ein schwieriges Problem darstellt. Weitere Informationen finden Sie in den folgenden Artikeln das diskutierte dieses Problem:

  1. Handl, J., Knowles, J. und Kell, DB (2005). Computergestützte Clustervalidierung in der postgenomischen Datenanalyse. Bioinformatics , 21 (15) , 3201 & ndash; 3212.
  2. Hennig, C. (2007) Clusterbasierte Bewertung der Clusterstabilität. Computational Statistics and Data Analysis , 52 , 258 & ndash; 271.
  3. Hennig, C. (2008) Auflösungspunkt und Isolationsrobustheit: Robustheitskriterien für allgemeine Methoden der Clusteranalyse. Journal of Multivariate Analysis , 99 , 1154 & ndash; 1176.
chl
quelle
3

Es gibt eine Vielzahl von Clustering-Methoden, die von Natur aus explorativ sind, und ich glaube nicht, dass eine von ihnen, ob hierarchisch oder partitioniert, auf der Art von Annahmen beruht, die man zur Analyse der Varianz treffen muss.

Als ich mir die [MV] -Dokumentation in Stata ansah, um Ihre Frage zu beantworten, fand ich dieses amüsante Zitat auf Seite 85:

Obwohl einige gesagt haben, dass es so viele Methoden zur Clusteranalyse gibt, wie es Leute gibt, die eine Clusteranalyse durchführen. Das ist eine grobe Untertreibung! Es gibt unendlich mehr Möglichkeiten, eine Clusteranalyse durchzuführen, als Menschen, die sie durchführen.

In diesem Zusammenhang bezweifle ich, dass es Annahmen gibt, die für alle Clustering-Methoden gelten. Der Rest des Textes legt lediglich als allgemeine Regel fest, dass Sie eine Art "Unähnlichkeitsmaß" benötigen, bei dem es sich nicht einmal um einen metrischen Abstand handeln muss, um Cluster zu erstellen.

Es gibt jedoch eine Ausnahme: Wenn Sie Beobachtungen im Rahmen einer Analyse nach der Schätzung in Gruppen zusammenfassen. In Stata enthält der vceBefehl auf Seite 86 derselben Quelle die folgende Warnung:

Wenn Sie mit den zahlreichen Schätzungsbefehlen von Stata vertraut sind, müssen Sie sorgfältig zwischen der Cluster-Analyse (dem Cluster-Befehl) und der Option vce (Cluster-Clustvar) unterscheiden, die bei vielen Schätzungsbefehlen zulässig ist. Die Clusteranalyse findet Gruppen in Daten. Die Option vce (cluster clustvar), die mit verschiedenen Schätzungsbefehlen zulässig ist, gibt an, dass die Beobachtungen über die von der Option definierten Gruppen hinweg unabhängig sind, jedoch nicht unbedingt innerhalb dieser Gruppen. Eine vom Befehl cluster erzeugte Gruppierungsvariable erfüllt selten die Annahme, dass die Option vce (cluster clustvar) verwendet wird.

Auf dieser Grundlage würde ich davon ausgehen, dass unabhängige Beobachtungen außerhalb dieses speziellen Falls nicht erforderlich sind. Intuitiv möchte ich hinzufügen, dass die Clusteranalyse möglicherweise sogar genau dazu verwendet wird, um zu untersuchen, inwieweit die Beobachtungen unabhängig sind oder nicht.

Abschließend möchte ich erwähnen, dass Lawrence Hamilton auf Seite 356 von Statistics with Stata standardisierte Variablen als einen "wesentlichen" Aspekt der Clusteranalyse erwähnt, obwohl er auf dieses Thema nicht näher eingeht.

Fr.
quelle
2

Die räumliche Clusteranalyse verwendet geografisch referenzierte Beobachtungen und ist eine Teilmenge der Clusteranalyse, die nicht auf die explorative Analyse beschränkt ist.

Beispiel 1

Es kann verwendet werden, um faire Wahlkreise zu bilden.

Beispiel 2

Lokale räumliche Autokorrelationsmaße werden in der AMOEBA- Clustering- Methode verwendet . Aldstadt und Getis verwenden die resultierenden Cluster, um eine räumliche Gewichtungsmatrix zu erstellen, die in räumlichen Regressionen angegeben werden kann , um eine Hypothese zu testen.

Siehe Aldstadt, Jared und Arthur Getis (2006). „Mit AMOEBA eine räumliche Gewichtungsmatrix erstellen und räumliche Cluster identifizieren.“ Geographical Analysis 38 (4) 327-343

Beispiel 3

Eine Clusteranalyse auf der Grundlage zufällig wachsender Regionen mit einer Reihe von Kriterien könnte als probabilistische Methode verwendet werden, um die Ungerechtigkeit bei der Gestaltung institutioneller Zonen wie Schulbesuchszonen oder Wahlbezirken anzuzeigen.

b_dev
quelle
1

Bei der Clusteranalyse handelt es sich nicht um Hypothesentests an sich, sondern lediglich um eine Sammlung verschiedener Ähnlichkeitsalgorithmen für die explorative Analyse. Sie können das Testen von Hypothesen erzwingen, aber die Ergebnisse sind häufig inkonsistent, da Clusteränderungen sehr empfindlich auf Änderungen der Parameter reagieren.

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_introclus_sect010.htm

Ralph Winters
quelle