Ich möchte meine Daten hierarchisch gruppieren, aber anstatt die euklidische Distanz zu verwenden, möchte ich die Korrelation verwenden. Da der Korrelationskoeffizient im Bereich von -1 bis 1 liegt, wobei -1 und 1 in meiner Studie "Co-Regulation" bedeuten, behandle ich sowohl -1 als auch 1 als d = 0. Meine Berechnung lautet also
Ich habe in einer separaten Frage (bezüglich k-means clustering) gelesen, dass man r mit dem Kosinussatz in wahres euklidisches d umwandeln soll :
Was ist der genaueste Weg, um Korrelation in Distanz für hierarchisches Clustering umzuwandeln?
Antworten:
Anforderungen an das hierarchische Clustering
Hierarchisches Clustering kann mit beliebigen Ähnlichkeits- und Unähnlichkeitsmaßen verwendet werden. (Die meisten Tools erwarten eine Unähnlichkeit, lassen jedoch negative Werte zu. Es liegt an Ihnen, sicherzustellen, ob kleine oder große Werte bevorzugt werden.)
Nur Methoden, die auf Zentroiden oder Varianz basieren (wie die Ward-Methode), sind speziell und sollten mit euklidischen Quadraten verwendet werden. (Um zu verstehen, warum, studieren Sie diese Verknüpfungen bitte sorgfältig.)
Single-Linkage, Average-Linkage, Complete-Linkage sind nicht sehr betroffen, es wird immer noch das Minimum / Average / Maximum der paarweisen Unterschiede sein.
Korrelation als Distanzmaß
Wenn Sie Ihre Daten (n Beobachtungen, p Merkmale) so vorverarbeiten , dass jedes Merkmal μ=0 und σ=1 (was konstante Merkmale nicht zulässt!), Reduziert sich die Korrelation zu Kosinus:
Unter den gleichen Bedingungen reduziert sich der quadratische euklidische Abstand auch zu Kosinus:
Sofern Ihre Daten nicht degeneriert sind, sollte die Verwendung der Korrelation für hierarchische Cluster daher in Ordnung sein. Verarbeiten Sie es einfach wie oben beschrieben, und verwenden Sie dann den euklidischen Quadratabstand.
quelle
Only ward's method is special, and should be used with squared Euclidean
. Nicht nur Wards. Jede Methode, die Zentroide oder Abweichungen von Zentroiden berechnet, benötigt aus Gründen der geometrischen Genauigkeit einen euklidischen oder quadratischen euklidischen Abstand (abhängig von der Implementierung). Bei Verlust dieser und der entsprechenden Warnung können sie mit anderen metrischen Entfernungen verwendet werden. Diese Methoden sind Centroid, "Median", Ward's, Varianz (nicht zu verwechseln mit Ward's!) Und einige andere.