Korrelation als Distanzmetrik verwenden (für hierarchisches Clustering)

Ich möchte meine Daten hierarchisch gruppieren, aber anstatt die euklidische Distanz zu verwenden, möchte ich die Korrelation verwenden. Da der Korrelationskoeffizient im Bereich von -1 bis 1 liegt, wobei -1 und 1 in meiner Studie "Co-Regulation" bedeuten, behandle ich sowohl -1 als auch 1 als d = 0. Meine Berechnung lautet also $\ d = 1-|r|$

Ich habe in einer separaten Frage (bezüglich k-means clustering) gelesen, dass man r mit dem Kosinussatz in wahres euklidisches d umwandeln soll : $d = \sqrt{2(1-r)}$

Was ist der genaueste Weg, um Korrelation in Distanz für hierarchisches Clustering umzuwandeln?

correlation clustering distance hierarchical-clustering Megatron
quelle

Ja, eine der möglichen - und geometrisch wahren - ist die letzte Formel. Sie können jedoch das Zeichen von außer Acht lassen, wenn es für Sie sinnvoll ist, so dass . In den meisten Fällen können Sie sicher löschen, ohne die Clusterergebnisse zu beeinträchtigen. Der Abstand kann als euklidisches Quadrat behandelt werden . In diesem Thread wurde diskutiert, ob abstandskonvertierte Korrelationsmaße metrische Abstände sind.

r

$r$

d^{2} = 2 (1 - | r |)

$d^2=2(1-|r|)$

2

$2$

TTNPHNS

Auch Sie nicht haben , um immer zu konvertieren

in eine lineare Unähnlichkeit wie euklidischen Abstand. Nicht so selten wird Clustering direkt auf der Basis von

oder

Wie bei der Ähnlichkeit, es ist eckige Ähnlichkeit

r

$r$

r

$r$

| r |

$|r|$

ttnphns

Anforderungen an das hierarchische Clustering

Hierarchisches Clustering kann mit beliebigen Ähnlichkeits- und Unähnlichkeitsmaßen verwendet werden. (Die meisten Tools erwarten eine Unähnlichkeit, lassen jedoch negative Werte zu. Es liegt an Ihnen, sicherzustellen, ob kleine oder große Werte bevorzugt werden.)

Nur Methoden, die auf Zentroiden oder Varianz basieren (wie die Ward-Methode), sind speziell und sollten mit euklidischen Quadraten verwendet werden. (Um zu verstehen, warum, studieren Sie diese Verknüpfungen bitte sorgfältig.)

Single-Linkage, Average-Linkage, Complete-Linkage sind nicht sehr betroffen, es wird immer noch das Minimum / Average / Maximum der paarweisen Unterschiede sein.

Korrelation als Distanzmaß

Wenn Sie Ihre Daten ( $n$ Beobachtungen, $p$ Merkmale) so vorverarbeiten , dass jedes Merkmal $\mu=0$ und $\sigma=1$ (was konstante Merkmale nicht zulässt!), Reduziert sich die Korrelation zu Kosinus:

Corr (X, Y.) = \frac{Cov (X, Y.)}{σ_{X} σ_{Y.}} = \frac{E [(X - μ_{X}) (Y. - μ_{Y.})]}{σ_{X} σ_{Y.}} = E [X Y.] = \frac{1}{n} ⟨ X, Y. ⟩

$\text{Corr} (X,Y) = \frac{\text{Cov}(X, Y)} {\sigma_X \sigma_Y} = \frac{\mathbb{E} \left[ (X - \mu_X) (Y - \mu_Y) \right]} {\sigma_X \sigma_Y} = \mathbb{E} [XY] = \frac1n \left<X, Y\right>$

Unter den gleichen Bedingungen reduziert sich der quadratische euklidische Abstand auch zu Kosinus:

d_{Euklid}^{2} (X, Y.) = \sum (X_{ich} - {Y.}_{ich})^{2} = \sum X_{ich}^{2} + \sum {Y.}_{ich}^{2} - 2 \sum X_{ich} {Y.}_{ich} = 2 n - 2 ⟨ X, Y. ⟩ = 2 n [1 - Corr (X, Y.)]

$d_\text{Euclid}^2(X,Y) = \sum (X_i - Y_i)^2 = \sum X_i^2 + \sum Y_i^2 - 2 \sum X_i Y_i \\ = 2n - 2\left<X, Y\right> = 2n \left[1 - \text{Corr}(X, Y)\right]$

Sofern Ihre Daten nicht degeneriert sind, sollte die Verwendung der Korrelation für hierarchische Cluster daher in Ordnung sein. Verarbeiten Sie es einfach wie oben beschrieben, und verwenden Sie dann den euklidischen Quadratabstand.

Anony-Mousse
quelle

Only ward's method is special, and should be used with squared Euclidean. Nicht nur Wards. Jede Methode, die Zentroide oder Abweichungen von Zentroiden berechnet, benötigt aus Gründen der geometrischen Genauigkeit einen euklidischen oder quadratischen euklidischen Abstand (abhängig von der Implementierung). Bei Verlust dieser und der entsprechenden Warnung können sie mit anderen metrischen Entfernungen verwendet werden. Diese Methoden sind Centroid, "Median", Ward's, Varianz (nicht zu verwechseln mit Ward's!) Und einige andere.

TTNPHNS

Danke, das habe ich klarer gemacht. Ich war mir dieser Unterschiede nicht bewusst, ich dachte nur an Single / Average / Complete / Ward.

Anony-Mousse

Es gibt viele Tippfehler und undefinierte Ausdrücke in diesem Beitrag! Könnten Sie es bitte überprüfen, korrigieren und erklären, was "

" sind und worauf sich "

" beziehen könnte?

⟨, ⟩

$\langle, \rangle$

d i m

$dim$

Whuber

Korrelation als Distanzmetrik verwenden (für hierarchisches Clustering)

Antworten:

Anforderungen an das hierarchische Clustering

Korrelation als Distanzmaß