Was sind die Abstände zwischen Variablen, die eine Kovarianzmatrix bilden?

11

Ich habe eine Kovarianzmatrix und möchte Variablen mithilfe hierarchischer Cluster in k Cluster aufteilen (zum Beispiel um eine Kovarianzmatrix zu sortieren).n×nk

Gibt es eine typische Abstandsfunktion zwischen Variablen (dh zwischen Spalten / Zeilen der quadratischen Kovarianzmatrix)?

Oder wenn es mehr gibt, gibt es eine gute Referenz zu diesem Thema?

Piotr Migdal
quelle
Warum sollten Sie hierarchisches Clustering für Variablen verwenden? Im Allgemeinen denken wir an eine Datenmatrix mit Variablen in Spalten und Beobachtungen in Zeilen. Wenn Sie nach latenten Gruppierungen suchen möchten, können Sie beispielsweise eine hierarchische Gruppierung von Zeilen / Beobachtungen oder eine Faktoranalyse von Spalten / Variablen versuchen . X
Gung - Reinstate Monica
d2=σ12+σ222cov
Beachten Sie, dass diese Formel bedeutet, dass eine negative Kovarianz größer ist als eine positive Kovarianz (und dies ist in der Tat aus geometrischer Sicht der Fall). Wenn Sie nicht möchten, dass das Vorzeichen der Kovarianz eine Rolle spielt, heben Sie das negative Vorzeichen auf.
ttnphns
@gung Es ist eine symmetrische Matrix, also Zeilen ~ Spalten. Für mich ist es wichtig, es in Variablensätze zu unterteilen und sie nicht mit der Faktoranalyse zu "drehen" (eigentlich arbeite ich nicht mit einer Standard-Cov-Matrix, sondern mit einer komplexen (Dichtematrix in der Quantenmechanik)).
Piotr Migdal
@ttnphns Danke. Was mich stört, ist, dass ich unkorrelierte Variablen trennen möchte - negative Korrelation ist für mich (fast) so gut wie die positive.
Piotr Migdal

Antworten:

13

dij2=σi2+σj22covijdichj2ist direkt proportional zum üblichen quadratischen euklidischen Abstand : Letzteres erhalten Sie, wenn Sie anstelle der Varianzen und der Kovarianz die Quadratsummen und die Summe der Kreuzprodukte verwenden. Beide Variablen sollten natürlich zunächst zentriert sein: Das Sprechen von "Kovarianzen" ist ein Pseudonym für das Nachdenken über Daten mit entfernten Mitteln.)

Beachten Sie, dass diese Formel bedeutet, dass eine negative Kovarianz größer ist als eine positive Kovarianz (und dies ist in der Tat aus geometrischer Sicht der Fall, dh wenn die Variablen als Vektoren im Subjektraum betrachtet werden ). Wenn Sie nicht möchten, dass das Vorzeichen der Kovarianz eine Rolle spielt, heben Sie das negative Vorzeichen auf. Das Ignorieren des negativen Vorzeichens ist keine "Patching by Hand" -Operation und wird bei Bedarf gerechtfertigt: Wenn die cov- Matrix positiv definit ist, ist auch die abs (cov) -Matrix positiv definit; und daher sind die durch die obige Formel erhaltenen Abstände wahre euklidische Abstände (der euklidische Abstand ist eine bestimmte Art von metrischem Abstand).

Euklidische Abstände sind in Bezug auf hierarchische Clusterbildung universell : Jede Methode dieser Clusterbildung gilt entweder für euklidische oder quadratische euklidische d . Einige Methoden, z. B. durchschnittliche Verknüpfung oder vollständige Verknüpfung, können jedoch mit beliebiger Unähnlichkeit oder Ähnlichkeit (nicht nur metrischen Abständen) verwendet werden. Sie können solche Methoden also direkt mit der cov- oder abs (cov) -Matrix oder - zum Beispiel - mit der max (abs (cov)) - abs (cov) -Distanzmatrix verwenden . Natürlich hängen die Clustering-Ergebnisse möglicherweise von der genauen Art der verwendeten (Dis-) Ähnlichkeit ab.

ttnphns
quelle
dichj2dichj2
@HelloGoodbye, ja, ich impliziere zwei Variablen (Vektoren) mit gleichen Mitteln - eigentlich mit entfernten Mitteln in erster Linie.
ttnphns
3

Warum nicht die Korrelationsmatrix für das Clustering verwenden? Angenommen, Ihre Zufallsvariablen sind zentriert, indem Sie die Korrelation zwischen Variablen berechnen, berechnen Sie den Kosinus-Ähnlichkeitsabstand . Diese Entfernung wird auch in Ihrem Link erwähnt. Dieser Abstand kann für hierarchisches Clustering verwendet werden. Je kleiner die 1 - | Cosinus-Ähnlichkeit | ist, desto ähnlicher sind Ihre Variablen.

Jorge Banuelos
quelle
Und ihre Eigenschaften? Ich habe kein Problem damit, mit einigen Entfernungen zu kommen (zd(ich,j)=1- -EINichj2/.(EINichichEINjj)oder eine effektiv dieselbe wie die Kosinusdistanz oder einige, die mit Projektionen auf Eigenvektoren zusammenhängen). Ich möchte es nur auf eine gebildete Art und Weise tun, die auf die Kovarianzmatrix zugeschnitten ist.
Piotr Migdal
3
Ah, entschuldige das Missverständnis. Die beste Quelle, die ich kenne, ist diese . Sie untersuchen die Qualität mehrerer Metriken (die Korrelation verwenden) mit hierarchischem Clustering. Für hierarchisches Clustering probiere ich normalerweise viele Metriken aus und finde heraus, welche für mein bestimmtes Ziel und meine Daten am besten geeignet sind.
Jorge Banuelos
Der Link scheint nicht mehr zu funktionieren?
Matifou