Ist die Dreiecksungleichung für diese korrelationsbasierten Abstände erfüllt?

12

Für hierarchische Cluster sehe ich oft die folgenden zwei "Metriken" (sie sprechen nicht genau dafür), um den Abstand zwischen zwei Zufallsvariablen $X$ und : Tut entweder Erfüllt man die Dreiecksungleichung? Wenn ja, wie soll ich es beweisen, anstatt nur eine Bruteforce-Berechnung durchzuführen? Was ist ein einfaches Gegenbeispiel, wenn es sich nicht um Metriken handelt? $Y$ $\newcommand{\Cor}{\mathrm{Cor}}$

\begin{aligned} d_{1} (X, Y) & = 1 - | C o r (X, Y) |, \\ d_{2} (X, Y) & = 1 - (C o r (X, Y))^{2} \end{aligned}

$\begin{align} d_1(X,Y) &= 1-|\Cor(X,Y)|, \\ d_2(X,Y) &= 1-(\Cor(X,Y))^2 \end{align}$

correlation clustering distance metric Linda
quelle

Möglicherweise möchten Sie dieses Dokument lesen : arxiv.org/pdf/1208.3145.pdf .

Chris

5

Die Dreiecksungleichung auf Ihrem würde ergeben: $d_1$ $\newcommand{\Cov}{\mathrm{Cov}}$ $\newcommand{\Cor}{\mathrm{Cor}}$ $\newcommand{\Var}{\mathrm{Var}}$

\begin{aligned} d_{1} (X, Z) & \leq d_{1} (X, Y) + d_{1} (Y, Z) \\ 1 - | C o r (X, Z) | & \leq 1 - | C o r (X, Y) | + 1 - | C o r (Y, Z) | \\ ⟹ | C o r (X, Y) | + | C o r (Y, Z) | & \leq 1 + | C o r (X, Z) | \end{aligned}

$\begin{align*} d_1(X,Z) &\leq d_1(X,Y) + d_1(Y,Z) \\ 1 - |\Cor(X,Z)| &\leq 1 - |\Cor(X,Y)| + 1 - |\Cor(Y,Z)| \\ \implies |\Cor(X,Y)| + |\Cor(Y,Z)| &\leq 1 + |\Cor(X,Z)| \end{align*}$

Dies scheint eine leichte Ungleichung zu sein, die es zu besiegen gilt. Wir können die rechte Seite so klein wie möglich machen (genau eine), indem wir und unabhängig machen. Können wir dann ein finden , dessen linke Seite ein überschreitet? $X$ $Z$ $Y$

Wenn und und identische Varianz haben, dann und ähnlich für , so Die linke Seite liegt weit darüber und die Ungleichung wird verletzt. Beispiel für diese Verletzung in R, wo und Komponenten einer multivariaten Normalen sind: $Y=X+Z$ $X$ $Z$ $\Cor(X,Y) = \frac{\sqrt{2}}{2} \approx 0.707$ $\Cor(Y,Z)$ $X$ $Z$

library(MASS)
set.seed(123)
d1 <- function(a,b) {1 - abs(cor(a,b))}

Sigma    <- matrix(c(1,0,0,1), nrow=2) # covariance matrix of X and Z
matrixXZ <- mvrnorm(n=1e3, mu=c(0,0), Sigma=Sigma, empirical=TRUE)
X <- matrixXZ[,1] # mean 0, variance 1
Z <- matrixXZ[,2] # mean 0, variance 1
cor(X,Z) # nearly zero
Y <- X + Z

d1(X,Y) 
# 0.2928932
d1(Y,Z)
# 0.2928932
d1(X,Z)
# 1
d1(X,Z) <= d1(X,Y) + d1(Y,Z)
# FALSE

Beachten Sie jedoch, dass diese Konstruktion mit Ihrem nicht funktioniert : $d_2$

d2 <- function(a,b) {1 - cor(a,b)^2}
d2(X,Y) 
# 0.5
d2(Y,Z)
# 0.5
d2(X,Z)
# 1
d2(X,Z) <= d2(X,Y) + d2(Y,Z)
# TRUE

Anstatt einen theoretischen Angriff auf starten , fand ich es zu diesem Zeitpunkt einfach einfacher, mit der Kovarianzmatrix in R herumzuspielen, bis ein schönes Gegenbeispiel herauskam. Das Zulassen von , und ergibt: $d_2$ Sigma $\Var(X)=2$ $\Var(Z)=1$ $\Cov(X,Z)=1$

V a r (Y) = V a r (X + Y) = V a r (X) + V a r (Z) + 2 C o v (X, Z) = 2 + 1 + 2 = 5

$\Var(Y)=\Var(X+Y)=\Var(X)+\Var(Z)+2\Cov(X,Z)=2+1+2=5$

Wir können auch die Kovarianzen untersuchen:

C o v (X, Y) = C o v (X, X + Z) = C o v (X, X) + C o v (X, Z) = 2 + 1 = 3

$\Cov(X,Y)=\Cov(X,X+Z)=\Cov(X,X)+\Cov(X,Z)=2+1=3$

C o v (Y, Z) = C o v (X + Z, Z) = C o v (X, Z) + C o v (Z, Z) = 1 + 1 = 2

$\Cov(Y,Z)=\Cov(X+Z,Z)=\Cov(X,Z)+\Cov(Z,Z)=1+1=2$

Die quadratischen Korrelationen lauten dann:

C o r (X, Z)^{2} = \frac{C o v (X, Z)^{2}}{V a r (X) V a r (Z)} = \frac{1^{2}}{2 \times 1} = 0.5

$\Cor(X,Z)^2 = \frac{\Cov(X,Z)^2}{\Var(X)\Var(Z)}=\frac{1^2}{2\times1}=0.5$

C o r (X, Y)^{2} = \frac{C o v (X, Y)^{2}}{V a r (X) V a r (Y)} = \frac{3^{2}}{2 \times 5} = 0.9

$\Cor(X,Y)^2 = \frac{\Cov(X,Y)^2}{\Var(X)\Var(Y)}=\frac{3^2}{2\times5}=0.9$

C o r (Y, Z)^{2} = \frac{C o v (Y, Z)^{2}}{V a r (Y) V a r (Z)} = \frac{2^{2}}{5 \times 1} = 0.8

$\Cor(Y,Z)^2 = \frac{\Cov(Y,Z)^2}{\Var(Y)\Var(Z)}=\frac{2^2}{5\times1}=0.8$

Dann ist während und so dass die Dreieckungleichung mit einem erheblichen Spielraum verletzt wird. $d_2(X,Z)=0.5$ $d_2(X,Y)=0.1$ $d_2(Y,Z)=0.2$

Sigma    <- matrix(c(2,1,1,1), nrow=2) # covariance matrix of X and Z
matrixXZ <- mvrnorm(n=1e3, mu=c(0,0), Sigma=Sigma, empirical=TRUE)
X <- matrixXZ[,1] # mean 0, variance 2
Z <- matrixXZ[,2] # mean 0, variance 1
cor(X,Z) # 0.707
Y  <- X + Z
d2 <- function(a,b) {1 - cor(a,b)^2}
d2(X,Y) 
# 0.1
d2(Y,Z)
# 0.2
d2(X,Z)
# 0.5
d2(X,Z) <= d2(X,Y) + d2(Y,Z)
# FALSE

Silberfisch
quelle

5

Lassen Sie uns drei Vektoren (könnte es Variablen oder Einzelpersonen sein) , und . Und wir haben jeden von ihnen auf Z-Scores standardisiert (Mittelwert = 0, Varianz = 1). $X$ $Y$ $Z$

$\newcommand{\Cor}{\mathrm{Cor}}$

Dann ist nach dem Kosinussatz ("Gesetz des Kosinusses") der quadratische euklidische Abstand zwischen zwei standardisierten Vektoren (z. B. X und Y) $d_{XY}^2 = 2(n-1)(1-\cos_{XY})$ , wo $\cos_{XY}$ , die Kosinusähnlichkeit, ist Pearson aufgrund z-Standardisierung von Vektoren. Wir können den konstanten Multiplikator sicher aus unserer Betrachtung auslassen . $r_{XY}$ $2(n-1)$

Es kommt also, dass der Abstand, der in der Frage ausgedrückt wird alswäre der quadratische euklidische Abstand, wenn die Formel das Vorzeichen des Korrelationskoeffizienten nicht ignorieren würde. $d_1(X,Y)=1-|\Cor(X,Y)|$

Wenn die Matrix von $|r|$ s ist zufällig ein Gramm (positives Semidefinit), dann ist die Quadratwurzel der "d1" -Distanz eine euklidische Distanz, die natürlich metrisch ist. Mit nicht großen Matrizen vonEs kommt oft vor, dass die Entfernungen im euklidischen Raum nicht weit voneinander entfernt sind. Da die Metrik eine breitere Klasse als die euklidische ist, wird eine bestimmte Matrix von Abständen "sqrt (d1)" möglicherweise ziemlich häufig als Metrik angezeigt. $|r|$

Wie für "d1" per se, das "wie" im Quadrat ist euklidische Distanz ist, ist es definitiv nicht metrisch. Sogar der wahre euklidische Abstand im Quadrat ist nicht metrisch: Er verstößt manchmal gegen das Dreieck-Ungleichungsprinzip. [In der Clusteranalyse wird häufig der quadratische euklidische Abstand verwendet; Die Mehrzahl dieser Fälle impliziert jedoch, dass die Analyse auf nichtquadratischen Entfernungen aufgebaut wird, wobei die quadrierten nur eine bequeme Eingabe für Berechnungen sind.] Um dies zu sehen (über das euklidische Quadrat ), zeichnen wir unsere drei Vektoren. $d$

Bildbeschreibung hier eingeben

Die Vektoren sind Einheitslängen (weil standardisiert). Cosinus der Winkel ( , , ) sind jeweils , , . Diese Winkel verteilen entsprechende euklidische Abstände zwischen den Vektoren: , , . Der Einfachheit halber liegen die drei Vektoren alle auf derselben Ebene (und der Winkel zwischen und ist die Summe der beiden anderen, ). Dies ist die Position, in der die Verletzung der Dreieckungleichung durch die quadrierten Abstände am stärksten hervorgehoben ist. $\alpha$ $\beta$ $\alpha+\beta$ $r_{XY}$ $r_{XZ}$ $r_{YZ}$ $d_{XY}$ $d_{XZ}$ $d_{YZ}$ $X$ $Z$ $\alpha+\beta$

Denn wie Sie mit den Augen sehen können, übertrifft der grüne Quadratbereich die Summe der beiden roten Quadrate: $d_{YZ}^2 > d_{XY}^2 + d_{XZ}^2$ .

Daher bezüglich

$d_1(X,Y)=1-|\Cor(X,Y)|$

Entfernung können wir sagen, es ist nicht metrisch. Denn selbst wenn alle ursprünglich positiv waren, ist der Abstand das euklidische das selbst nicht metrisch ist. $r$ $d^2$

Was ist mit der zweiten Distanz?

$d_2(X,Y)=1-(\Cor(X,Y))^2$

Da Korrelation im Fall von Vektoren ist genormt , ist . ( In der Tat, ist von einer linearen Regression, eine Größe , die die quadrierte Korrelations der abhängigen Variablen mit etwas , ist orthogonal zu dem Prädiktor) . In diesem Fall ist den Sinusse der Vektoren zeichnen, und machen sie im Quadrat (weil wir reden über die Entfernung, die $r$ $\cos$ $1-r^2$ $\sin^2$ $1-r^2$ SSerror/SStotal $\sin^2$ ) ist:

Bildbeschreibung hier eingeben

Obwohl es visuell nicht ganz offensichtlich ist, ist das grüne Quadrat wieder größer als die Summe der roten Bereiche $\sin_{YZ}^2$ $\sin_{XY}^2 + \sin_{XZ}^2$ .

Es konnte bewiesen werden. In einer Ebene ist . Quadrieren Sie beide Seiten, da wir an interessiert sind . $\sin(\alpha+\beta) = \sin\alpha \cos\beta + \cos\alpha \sin\beta$ $\sin^2$

\begin{aligned} \sin^{2} (α + β) & = \sin^{2} α (1 - \sin^{2} β) + (1 - \sin^{2} α) \sin^{2} β + 2 \sin α \cos β \cos α \sin β \\ = \sin^{2} α + \sin^{2} β - 2 [\sin^{2} α \sin^{2} β] + 2 [\sin α \cos α \sin β \cos β] \end{aligned}

$\begin{align} \sin^2(\alpha+\beta) &= \sin^2\alpha (1-\sin^2\beta) + (1-\sin^2\alpha) \sin^2\beta + 2 \sin\alpha \cos\beta \cos\alpha \sin\beta \\ &= \sin^2\alpha + \sin^2\beta -2 [\sin^2\alpha \sin^2\beta] +2 [\sin\alpha \cos\alpha \sin\beta \cos\beta] \end{align}$

Im letzten Ausdruck sind zwei wichtige Begriffe in Klammern angegeben. Wenn die zweite der beiden größer ist (oder sein kann) als die erste, dann ist , und der Abstand "d2" verletzt dreieckige Ungleichung. Und so ist es auf unserem Bild, wo ungefähr 40 Grad und ungefähr 30 Grad beträgt (Term 1 ist $\sin^2(\alpha+\beta) > \sin^2\alpha + \sin^2\beta$ $\alpha$ $\beta$ .1033 und Term 2 ist .2132). "D2" ist nicht metrisch.

Die Quadratwurzel von "d2" Abstand - das Sinus-Unähnlichkeitsmaß - ist jedoch metrisch (ich glaube). Du kannst mit verschiedenen und Winkeln in meinem Kreis spielen, um sicherzugehen. Ob "d2" auch in einer nicht-kollinearen Einstellung metrisch sein wird (dh drei Vektoren nicht in einer Ebene), kann ich zum gegenwärtigen Zeitpunkt nicht sagen, auch wenn ich dies vorläufig vermute. $\alpha$ $\beta$

ttnphns
quelle

3

Siehe auch diesen Preprint, den ich geschrieben habe: http://arxiv.org/abs/1208.3145 . Ich muss mir noch Zeit nehmen und es richtig einreichen. Die Zusammenfassung:

Wir untersuchen zwei Klassen von Transformationen der Cosinusähnlichkeit und Pearson- und Spearman-Korrelationen in metrische Abstände unter Verwendung des einfachen Werkzeugs metrikerhaltender Funktionen. Die erste Klasse legt antikorrelierte Objekte maximal weit auseinander. Bisher bekannte Transformationen fallen in diese Klasse. Die zweite Klasse sortiert korrelierte und antikorrelierte Objekte. Ein Beispiel für eine solche Transformation, die einen metrischen Abstand ergibt, ist die Sinusfunktion, wenn sie auf zentrierte Daten angewendet wird.

Das Fazit für Ihre Frage ist, dass d1 , d2 in der Tat keine Metrik sind und dass die Quadratwurzel von d2 tatsächlich eine richtige Metrik ist.

micans
quelle

2

Nein.

Einfachstes Gegenbeispiel:

Für der Abstand überhaupt nicht definiert, unabhängig davon, wie groß Ihr ist. $X=(0,0)$ $Y$

Jede konstante Reihe hat die Standardabweichung und bewirkt somit eine Division durch Null in der Definition von ... $\sigma=0$ $Cor$

Es handelt sich höchstens um eine Metrik für eine Teilmenge des Datenraums, die keine konstanten Reihen enthält.

Hat aufgehört - Anony-Mousse
quelle

Guter Punkt! Ich muss dies in dem an anderer Stelle erwähnten Vordruck erwähnen.

Micans

Ist die Dreiecksungleichung für diese korrelationsbasierten Abstände erfüllt?

Antworten: