Offensichtlich müssen bei hierarchischen Clustern, bei denen das Entfernungsmaß die euklidische Entfernung ist, die Daten zuerst normalisiert oder standardisiert werden, um zu verhindern, dass die Kovariate mit der höchsten Varianz die Clusterbildung antreibt. Warum ist das? Ist das nicht wünschenswert?
quelle
Wenn Sie Ihre Daten nicht standardisieren, dominieren die in großen Einheiten gemessenen Variablen die berechnete Unähnlichkeit, und Variablen, die in kleinen Einheiten gemessen werden, tragen sehr wenig dazu bei.
Wir können dies in R visualisieren über:
dist1
enthält die euklidischen Abstände für die 100 Beobachtungen basierend auf allen drei Variablen, währenddist2
der euklidische Abstandvar1
allein basierend auf enthalten ist .Beachten Sie, wie ähnlich die Entfernungsverteilungen sind, was auf einen geringen Beitrag von
var2
und hinweistvar3
, und dass die tatsächlichen Entfernungen sehr ähnlich sind:Wenn wir die Daten standardisieren
dann gibt es eine große Veränderung in den Entfernungen, die nur auf
var1
und denen basieren, die auf allen drei Variablen basieren:Da hierarchische Cluster diese Abstände verwenden, hängt es von der Art der Daten / Variablen ab, über die Sie verfügen, und ob die großen Dinge die Abstände und damit die Bildung der Cluster dominieren sollen. Die Antwort darauf ist domänenspezifisch und datensatzspezifisch.
quelle
Anony-Mousse gab eine hervorragende Antwort . Ich möchte nur hinzufügen, dass die Distanzmetrik, die Sinn macht, von der Form der multivariaten Verteilungen abhängt. Für multivariates Gauß ist der Mahalanobis-Abstand das geeignete Maß.
quelle