Clustering von Daten mit einer Mischung aus kontinuierlichen und kategorialen Variablen

8

Ich habe Daten, die einen Aspekt des menschlichen Verhaltens darstellen. Ich möchte es (unbeaufsichtigt) in irgendeine Art von Verhaltensprofilen gruppieren. Jetzt sind einige meiner Variablen kategorisch (mit 2 oder mehr Kategorien) und einige sind kontinuierlich (die meisten sind Prozentsätze). Einige Variablen sind noch komplexer, da eine Kategorie weiter kontinuierlich ist und die andere keine solchen zusätzlichen Daten enthält.

Meine Frage ist, wie man diese Daten kategorisiert. Was sind die (üblichen?) Ansätze, die damit umgehen?

Ich brauche keinen Code oder irgendetwas, sondern einige Referenzen oder Anweisungen, die mir helfen, besser zu verstehen, wie ich mit dieser Herausforderung umgehen soll.

Wenn Sie RFunktionen kennen, die eine solche Analyse ermöglichen, wäre das großartig, aber nicht notwendig.

Vielen Dank.

r clustering categorical-data continuous-data amit
quelle

2

Das Gower-Ähnlichkeitsmaß kann gleichzeitig kontinuierliche, ordinale, binäre und nominale Daten erfassen. Sie können Clustering-Methoden wie hierarchisch oder medoid verwenden, um die Proximity-Matrix zu analysieren. Nur wenige andere Clustering-Methoden (z. B. TwoStep-Cluster) können kontinuierliche und nominale Variablen gleichzeitig annehmen.

ttnphns

Für Prozentsätze oder Zählungen werden manchmal spezielle Chi-Quadrat-Maße für sie berechnet, und manchmal wird der übliche euklidische Abstand wie für kontinuierliche Daten verwendet.

ttnphns

4

Alles in allem ist das Clustering von Daten gemischten Typs eine schwierige Sache und möglicherweise nur für einen erfahrenen Datenanalysten. Auf der anderen Seite ist das Clustering solcher Daten oft überhaupt keine gute Idee, da es Probleme bei der Standardisierung, Interpretation und Analyse von Beitragsmerkmalen gibt.

ttnphns

1

Nehmen Sie sich viel Zeit, um die Ähnlichkeit Ihrer Daten zu verstehen.
Formalisieren Sie Ihren Ähnlichkeitsbegriff in einem speziellen Ähnlichkeitsmaß, das für Ihren bestimmten Datensatz entwickelt wurde (Sie können wahrscheinlich keine sofort einsatzbereite Ähnlichkeit verwenden).
Verwenden Sie einen Clustering-Algorithmus, der beliebige Ähnlichkeiten verwenden kann, z. B. hierarchisches Clustering, DBSCAN, Affinitätsausbreitung oder spektrales Clustering.

Hat aufgehört - Anony-Mousse
quelle

1

Das R-Paket finden Sie unter https://cran.r-project.org/web/packages/ClustOfVarClustOfVar . Es scheint einige der besten verfügbaren Clustering-Methoden für Mischungen von Variablentypen zu implementieren.

Frank Harrell
quelle

Clustering von Daten mit einer Mischung aus kontinuierlichen und kategorialen Variablen

Antworten: