In meinem Datensatz haben wir sowohl kontinuierliche als auch natürlich diskrete Variablen. Ich möchte wissen, ob wir hierarchisches Clustering mit beiden Variablentypen durchführen können. Und wenn ja, welches Entfernungsmaß ist angemessen?
34
Antworten:
Eine Möglichkeit besteht darin, den Gower-Ähnlichkeitskoeffizienten zu verwenden, der ein zusammengesetztes Maß 1 ist1 . Es werden quantitative (z. B. Bewertungsskala), binäre (z. B. vorhanden / nicht vorhanden) und nominale (z. B. Arbeiter / Lehrer / Angestellter) Variablen verwendet. Später fügte Podani 2 eine Option hinzu, um auch ordinale Variablen aufzunehmen.2
Der Koeffizient ist auch ohne Formel leicht zu verstehen; Sie berechnen den Ähnlichkeitswert zwischen den Individuen für jede Variable unter Berücksichtigung des Variablentyps und mitteln dann über alle Variablen. In der Regel können Sie mit einem Programm, das Gower berechnet, Variablen wiegen, dh ihren Beitrag zur zusammengesetzten Formel. Die richtige Gewichtung von Variablen unterschiedlichen Typs ist jedoch ein Problem , es gibt keine eindeutigen Richtlinien, die Gower oder andere "zusammengesetzte" Indikatoren für die Annäherung an sich ziehen lassen.
Die Facetten der Gower-Ähnlichkeit (GS ):
(Es ist einfach, die Liste der Typen zu erweitern. Sie können beispielsweise einen Summanden für Zählvariablen hinzufügen, indem Sie den normalisierten Chi-Quadrat-Abstand in Ähnlichkeit umwandeln.)
Der Koeffizient liegt zwischen 0 und 1.
Mit euklidischen Entfernungen (Entfernungen, die den euklidischen Raum unterstützen) ist praktisch jede klassische Clustering-Technik geeignet. Einschließlich der K- Mittelwerte (sofern Ihr K-Mittelwert-Programm Entfernungsmatrizen verarbeiten kann) und einschließlich der Ward-Methoden zur hierarchischen Clusterbildung mit Schwerpunkt und Median . Die Verwendung von K-Mitteln oder anderen Methoden, die auf der euklidischen Distanz mit der nicht-euklidischen metrischen Distanz basieren , ist möglicherweise heuristisch zulässig. Bei nichtmetrischen Entfernungen dürfen keine derartigen Methoden angewendet werden.
Der vorige Absatz befasst sich mit der Frage, ob die K-Mittelwerte oder die Ward-Werte oder eine solche Gruppierung für den Gower-Abstand mathematisch (geometrisch) zulässig sind oder nicht . Unter dem Gesichtspunkt der Messskala ("psychometrisch") sollte man in kategorialen (nominalen, binären sowie ordinalen) Daten keine mittlere oder euklidische Distanzabweichung davon berechnen. Aus diesem Grund können Sie den Gower-Koeffizienten nicht mit K-Mitteln, Ward usw. verarbeiten. Dieser Standpunkt warnt davor, dass ein euklidischer Raum granuliert und nicht glatt sein kann ( siehe verwandte ).
quelle
Wenn Sie über diese Frage gestolpert sind und sich fragen, welches Paket für die Verwendung der Gower-Metrik in R heruntergeladen werden soll , verfügt das
cluster
Paket über eine Funktion namens daisy () , die standardmäßig die Gower-Metrik verwendet, wenn gemischte Variablentypen verwendet werden. Sie können es auch manuell so einstellen, dass die Gower-Metrik verwendet wird.quelle
StatMatch
.