Ich habe eine Kovarianzmatrix und möchte Variablen mithilfe hierarchischer Cluster in k Cluster aufteilen (zum Beispiel um eine Kovarianzmatrix zu sortieren).
Gibt es eine typische Abstandsfunktion zwischen Variablen (dh zwischen Spalten / Zeilen der quadratischen Kovarianzmatrix)?
Oder wenn es mehr gibt, gibt es eine gute Referenz zu diesem Thema?
clustering
covariance
distance-functions
distance
Piotr Migdal
quelle
quelle
Antworten:
Beachten Sie, dass diese Formel bedeutet, dass eine negative Kovarianz größer ist als eine positive Kovarianz (und dies ist in der Tat aus geometrischer Sicht der Fall, dh wenn die Variablen als Vektoren im Subjektraum betrachtet werden ). Wenn Sie nicht möchten, dass das Vorzeichen der Kovarianz eine Rolle spielt, heben Sie das negative Vorzeichen auf. Das Ignorieren des negativen Vorzeichens ist keine "Patching by Hand" -Operation und wird bei Bedarf gerechtfertigt: Wenn die cov- Matrix positiv definit ist, ist auch die abs (cov) -Matrix positiv definit; und daher sind die durch die obige Formel erhaltenen Abstände wahre euklidische Abstände (der euklidische Abstand ist eine bestimmte Art von metrischem Abstand).
Euklidische Abstände sind in Bezug auf hierarchische Clusterbildung universell : Jede Methode dieser Clusterbildung gilt entweder für euklidische oder quadratische euklidische d . Einige Methoden, z. B. durchschnittliche Verknüpfung oder vollständige Verknüpfung, können jedoch mit beliebiger Unähnlichkeit oder Ähnlichkeit (nicht nur metrischen Abständen) verwendet werden. Sie können solche Methoden also direkt mit der cov- oder abs (cov) -Matrix oder - zum Beispiel - mit der max (abs (cov)) - abs (cov) -Distanzmatrix verwenden . Natürlich hängen die Clustering-Ergebnisse möglicherweise von der genauen Art der verwendeten (Dis-) Ähnlichkeit ab.
quelle
Warum nicht die Korrelationsmatrix für das Clustering verwenden? Angenommen, Ihre Zufallsvariablen sind zentriert, indem Sie die Korrelation zwischen Variablen berechnen, berechnen Sie den Kosinus-Ähnlichkeitsabstand . Diese Entfernung wird auch in Ihrem Link erwähnt. Dieser Abstand kann für hierarchisches Clustering verwendet werden. Je kleiner die 1 - | Cosinus-Ähnlichkeit | ist, desto ähnlicher sind Ihre Variablen.
quelle