Ich habe 17 numerische und 5 binäre (0-1) Variablen mit 73 Beispielen in meinem Datensatz. Ich muss eine Clusteranalyse durchführen. Ich weiß, dass der Gower-Abstand eine gute Metrik für Datensätze mit gemischten Variablen ist. Aber ich konnte nicht verstehen , wie der Gower Abstand die Differenz zwischen berechnet Binärgrößen . Es scheint mir, dass es sich nicht von der euklidischen Distanz unterscheidet.
clustering
distance
mixed-type-data
Emrah Bilgiç
quelle
quelle
Gower
? stats.stackexchange.com/a/15313/3277Antworten:
Wie wäre es mit binären Attributen mit den Werten "m" und "f" für "männlich" und "weiblich"?
Sie wissen, dass für eine dikotome Variable alles, was Sie herausholen können, "gleich" oder "anders" ist? Der entscheidende Punktunterschied zwischen Entfernungen besteht nicht darin, ob der Wert 1 oder 0 ist. aber wie mehrere Variablen kombiniert werden.
quelle
Die Gower-Entfernung verwendet Manhattan zur Berechnung der Entfernung zwischen fortlaufenden Datenpunkten und Dice zur Berechnung der Entfernung zwischen kategorialen Datenpunkten
quelle