Hierarchisches Clustering mit kategorialen Variablen

11

Können kategoriale Variablen in hierarchischen Clustern verwendet werden? Ich habe gehört, dass nur kontinuierliche Variablen verwendet werden, aber ich habe gesehen, dass Leute, die kategoriale Variablen diskutieren, möglicherweise auch verwendet werden / nicht. Kann jemand Einblick geben?

Windsturm1981
quelle
2
Ja, kategoriale Daten sind häufig Gegenstand der Clusteranalyse, insbesondere hierarchischer Daten. Für binäre Variablen gibt es viele Näherungsmaße (einschließlich Dummy-Mengen, die den Abfall kategorialer Variablen darstellen). auch Entropiemaßnahmen. Häufungen von Fällen sind die häufigen Kombinationen von Attributen, und verschiedene Maßnahmen geben ihre spezifische Würze für die Frequenzabrechnung. Ein Problem beim Clustering kategorialer Daten ist die Stabilität von Lösungen. Und diese aktuelle Frage wirft das Problem der variablen Korrelation auf.
ttnphns
Durchsuchen Sie diese Site hierarchical clustering categoricalnach verwandten Themen.
ttnphns
Mögliches Duplikat der Clusterbildung von Daten gemischten Typs mit R
kjetil b halvorsen
Ich denke nicht, dass dies genau ein Duplikat ist. Die verknüpfte Frage bezieht sich auf R und könnte jetzt sogar nicht zum Thema gehören. Diese Frage bezieht sich auf Statistiken und erwähnt kein Softwarepaket.
Peter Flom
@ttnphns: Möchten Sie Ihre Kommentare als Antwort veröffentlichen? Besser eine kurze Antwort als gar keine Antwort. Jeder, der eine bessere Antwort hat, kann sie posten.
Stephan Kolassa

Antworten:

3

Ja, kategoriale Daten sind häufig Gegenstand der Clusteranalyse, insbesondere hierarchischer Daten. Für binäre Variablen gibt es viele Näherungsmaße (einschließlich Dummy-Mengen, die den Abfall kategorialer Variablen darstellen). auch Entropiemaßnahmen. Häufungen von Fällen sind die häufigen Kombinationen von Attributen, und verschiedene Maßnahmen geben ihre spezifische Würze für die Frequenzabrechnung. Ein Problem beim Clustering kategorialer Daten ist die Stabilität von Lösungen. Und diese aktuelle Frage wirft das Problem der variablen Korrelation auf.

mkt - Monica wieder einsetzen
quelle
Ich habe diesen Kommentar von @ttnphns als Community-Wiki-Antwort kopiert, da der Kommentar mehr oder weniger eine Antwort auf diese Frage ist. Wir haben eine dramatische Lücke zwischen Antworten und Fragen. Zumindest ein Teil des Problems besteht darin, dass einige Fragen in Kommentaren beantwortet werden: Wenn Kommentare, die die Frage beantworteten, stattdessen Antworten wären, hätten wir weniger unbeantwortete Fragen.
mkt - Monica