Fragen:
Ich habe eine große Korrelationsmatrix. Anstatt einzelne Korrelationen zu gruppieren, möchte ich Variablen anhand ihrer Korrelationen miteinander gruppieren. Wenn also Variable A und Variable B ähnliche Korrelationen zu Variablen C bis Z aufweisen, sollten A und B Teil desselben Clusters sein. Ein gutes Beispiel aus der Praxis sind verschiedene Anlageklassen - die Korrelationen innerhalb der Anlageklassen sind höher als die Korrelationen zwischen den Anlageklassen.
Ich denke auch über Clustering-Variablen in Bezug auf die Längenbeziehung zwischen ihnen nach, z. B. wenn die Korrelation zwischen Variablen A und B nahe bei 0 liegt, agieren sie mehr oder weniger unabhängig. Wenn sich plötzlich einige zugrunde liegende Bedingungen ändern und eine starke Korrelation entsteht (positiv oder negativ), können wir uns diese beiden Variablen als zu demselben Cluster gehörig vorstellen. Anstatt also nach positiver Korrelation zu suchen, würde man nach Beziehung statt nach keiner Beziehung suchen. Ich denke, eine Analogie könnte ein Cluster von positiv und negativ geladenen Teilchen sein. Wenn die Ladung auf 0 fällt, driftet das Teilchen vom Cluster weg. Sowohl positive als auch negative Ladungen ziehen jedoch Partikel zu offenbarenden Clustern an.
Ich entschuldige mich, wenn einige davon nicht sehr klar sind. Bitte lassen Sie es mich wissen, ich werde bestimmte Details klären.
quelle
Antworten:
Hier ist ein einfaches Beispiel in R unter Verwendung des
bfi
Datensatzes: bfi ist ein Datensatz von 25 Persönlichkeitstestelementen, die um 5 Faktoren herum organisiert sind.Eine hiearchische Clusteranalyse unter Verwendung des euklidischen Abstands zwischen Variablen basierend auf der absoluten Korrelation zwischen Variablen kann wie folgt erhalten werden:
Das Dendrogramm zeigt, wie sich Gegenstände im Allgemeinen mit anderen Gegenständen gemäß theoretischer Gruppierungen (z. B. N (Neurotizismus) -Gegenstandsgruppen) zusammenlagern. Es wird auch gezeigt, wie einige Elemente in Clustern ähnlicher sind (z. B. könnten C5 und C1 ähnlicher sein als C5 mit C3). Dies legt auch nahe, dass der N-Cluster anderen Clustern weniger ähnlich ist.
Alternativ können Sie eine Standardfaktoranalyse wie folgt durchführen:
quelle
Beim Clustering von Korrelationen ist es wichtig, den Abstand nicht zweimal zu berechnen. Wenn Sie die Korrelationsmatrix nehmen, führen Sie im Wesentlichen eine Entfernungsberechnung durch. Sie werden es in eine wahre Distanz umrechnen wollen, indem Sie 1 - den absoluten Wert - nehmen.
Wenn Sie diese Matrix in ein Entfernungsobjekt konvertieren, nehmen Sie mit der dist-Funktion die Entfernungen zwischen Ihren Korrelationen. Stattdessen möchten Sie die
as.dist()
Funktion verwenden, mit der Ihre vorberechneten Entfernungen einfach in"dist"
Objekte umgewandelt werden.Anwenden dieser Methode auf das Alglim-Beispiel
führt zu einem anderen Dendroggramm
quelle