Korrelation als Distanzmetrik verwenden (für hierarchisches Clustering)

22

Ich möchte meine Daten hierarchisch gruppieren, aber anstatt die euklidische Distanz zu verwenden, möchte ich die Korrelation verwenden. Da der Korrelationskoeffizient im Bereich von -1 bis 1 liegt, wobei -1 und 1 in meiner Studie "Co-Regulation" bedeuten, behandle ich sowohl -1 als auch 1 als d = 0. Meine Berechnung lautet also d=1|r|

Ich habe in einer separaten Frage (bezüglich k-means clustering) gelesen, dass man r mit dem Kosinussatz in wahres euklidisches d umwandeln soll :d=2(1r)

Was ist der genaueste Weg, um Korrelation in Distanz für hierarchisches Clustering umzuwandeln?

Megatron
quelle
3
Ja, eine der möglichen - und geometrisch wahren - ist die letzte Formel. Sie können jedoch das Zeichen von außer Acht lassen, wenn es für Sie sinnvoll ist, so dass . In den meisten Fällen können Sie sicher löschen, ohne die Clusterergebnisse zu beeinträchtigen. Der Abstand kann als euklidisches Quadrat behandelt werden . In diesem Thread wurde diskutiert, ob abstandskonvertierte Korrelationsmaße metrische Abstände sind. rd2=2(1|r|)2
TTNPHNS
2
Auch Sie nicht haben , um immer zu konvertieren in eine lineare Unähnlichkeit wie euklidischen Abstand. Nicht so selten wird Clustering direkt auf der Basis von r oder | durchgeführt r | Wie bei der Ähnlichkeit, es ist eckige Ähnlichkeitrr|r|
ttnphns

Antworten:

21

Anforderungen an das hierarchische Clustering

Hierarchisches Clustering kann mit beliebigen Ähnlichkeits- und Unähnlichkeitsmaßen verwendet werden. (Die meisten Tools erwarten eine Unähnlichkeit, lassen jedoch negative Werte zu. Es liegt an Ihnen, sicherzustellen, ob kleine oder große Werte bevorzugt werden.)

Nur Methoden, die auf Zentroiden oder Varianz basieren (wie die Ward-Methode), sind speziell und sollten mit euklidischen Quadraten verwendet werden. (Um zu verstehen, warum, studieren Sie diese Verknüpfungen bitte sorgfältig.)

Single-Linkage, Average-Linkage, Complete-Linkage sind nicht sehr betroffen, es wird immer noch das Minimum / Average / Maximum der paarweisen Unterschiede sein.

Korrelation als Distanzmaß

Wenn Sie Ihre Daten ( n Beobachtungen, p Merkmale) so vorverarbeiten , dass jedes Merkmal μ=0 und σ=1 (was konstante Merkmale nicht zulässt!), Reduziert sich die Korrelation zu Kosinus:

Corr(X,Y.)=Cov(X,Y.)σXσY.=E[(X-μX)(Y.-μY.)]σXσY.=E[XY.]=1nX,Y.

Unter den gleichen Bedingungen reduziert sich der quadratische euklidische Abstand auch zu Kosinus:

dEuklid2(X,Y.)=(Xich-Y.ich)2=Xich2+Y.ich2-2XichY.ich=2n-2X,Y.=2n[1-Corr(X,Y.)]

Sofern Ihre Daten nicht degeneriert sind, sollte die Verwendung der Korrelation für hierarchische Cluster daher in Ordnung sein. Verarbeiten Sie es einfach wie oben beschrieben, und verwenden Sie dann den euklidischen Quadratabstand.

Anony-Mousse
quelle
1
Only ward's method is special, and should be used with squared Euclidean. Nicht nur Wards. Jede Methode, die Zentroide oder Abweichungen von Zentroiden berechnet, benötigt aus Gründen der geometrischen Genauigkeit einen euklidischen oder quadratischen euklidischen Abstand (abhängig von der Implementierung). Bei Verlust dieser und der entsprechenden Warnung können sie mit anderen metrischen Entfernungen verwendet werden. Diese Methoden sind Centroid, "Median", Ward's, Varianz (nicht zu verwechseln mit Ward's!) Und einige andere.
TTNPHNS
Danke, das habe ich klarer gemacht. Ich war mir dieser Unterschiede nicht bewusst, ich dachte nur an Single / Average / Complete / Ward.
Anony-Mousse
1
Es gibt viele Tippfehler und undefinierte Ausdrücke in diesem Beitrag! Könnten Sie es bitte überprüfen, korrigieren und erklären, was " " sind und worauf sich " d i m " beziehen könnte? ,dichm
Whuber