Für hierarchische Cluster sehe ich oft die folgenden zwei "Metriken" (sie sprechen nicht genau dafür), um den Abstand zwischen zwei Zufallsvariablen und : Tut entweder Erfüllt man die Dreiecksungleichung? Wenn ja, wie soll ich es beweisen, anstatt nur eine Bruteforce-Berechnung durchzuführen? Was ist ein einfaches Gegenbeispiel, wenn es sich nicht um Metriken handelt?
12
Antworten:
Die Dreiecksungleichung auf Ihrem würde ergeben:d1
Dies scheint eine leichte Ungleichung zu sein, die es zu besiegen gilt. Wir können die rechte Seite so klein wie möglich machen (genau eine), indem wir und unabhängig machen. Können wir dann ein finden , dessen linke Seite ein überschreitet?X Z Y
Wenn und und identische Varianz haben, dann und ähnlich für , so Die linke Seite liegt weit darüber und die Ungleichung wird verletzt. Beispiel für diese Verletzung in R, wo und Komponenten einer multivariaten Normalen sind:Y=X+Z X Z Cor(X,Y)=2√2≈0.707 Cor(Y,Z) X Z
Beachten Sie jedoch, dass diese Konstruktion mit Ihrem nicht funktioniert :d2
Anstatt einen theoretischen Angriff auf starten , fand ich es zu diesem Zeitpunkt einfach einfacher, mit der Kovarianzmatrix in R herumzuspielen, bis ein schönes Gegenbeispiel herauskam. Das Zulassen von , und ergibt:V a r ( X ) = 2 V a r ( Z ) = 1 C o v ( X , Z ) = 1d2 Var(X)=2 Var(Z)=1 Cov(X,Z)=1
Sigma
Wir können auch die Kovarianzen untersuchen:
C o v ( Y , Z ) = C o v ( X + Z , Z
Die quadratischen Korrelationen lauten dann:
Dann ist während und so dass die Dreieckungleichung mit einem erheblichen Spielraum verletzt wird.d2(X,Z)=0.5 d2(X,Y)=0.1 d2(Y,Z)=0.2
quelle
Lassen Sie uns drei Vektoren (könnte es Variablen oder Einzelpersonen sein) , und . Und wir haben jeden von ihnen auf Z-Scores standardisiert (Mittelwert = 0, Varianz = 1).X Y Z
Dann ist nach dem Kosinussatz ("Gesetz des Kosinusses") der quadratische euklidische Abstand zwischen zwei standardisierten Vektoren (z. B. X und Y)d2XY=2(n−1)(1−cosXY) , wo cosXY , die Kosinusähnlichkeit, ist Pearson aufgrund z-Standardisierung von Vektoren. Wir können den konstanten Multiplikator sicher aus unserer Betrachtung auslassen .rXY 2(n−1)
Es kommt also, dass der Abstand, der in der Frage ausgedrückt wird alswäre der quadratische euklidische Abstand, wenn die Formel das Vorzeichen des Korrelationskoeffizienten nicht ignorieren würde.d1(X,Y)=1−|Cor(X,Y)|
Wenn die Matrix von|r| s ist zufällig ein Gramm (positives Semidefinit), dann ist die Quadratwurzel der "d1" -Distanz eine euklidische Distanz, die natürlich metrisch ist. Mit nicht großen Matrizen vonEs kommt oft vor, dass die Entfernungen im euklidischen Raum nicht weit voneinander entfernt sind. Da die Metrik eine breitere Klasse als die euklidische ist, wird eine bestimmte Matrix von Abständen "sqrt (d1)" möglicherweise ziemlich häufig als Metrik angezeigt.|r|
Wie für "d1" per se, das "wie" im Quadrat ist euklidische Distanz ist, ist es definitiv nicht metrisch. Sogar der wahre euklidische Abstand im Quadrat ist nicht metrisch: Er verstößt manchmal gegen das Dreieck-Ungleichungsprinzip. [In der Clusteranalyse wird häufig der quadratische euklidische Abstand verwendet; Die Mehrzahl dieser Fälle impliziert jedoch, dass die Analyse auf nichtquadratischen Entfernungen aufgebaut wird, wobei die quadrierten nur eine bequeme Eingabe für Berechnungen sind.] Um dies zu sehen (über das euklidische Quadrat ), zeichnen wir unsere drei Vektoren.d
Die Vektoren sind Einheitslängen (weil standardisiert). Cosinus der Winkel ( , , ) sind jeweils , , . Diese Winkel verteilen entsprechende euklidische Abstände zwischen den Vektoren: , , . Der Einfachheit halber liegen die drei Vektoren alle auf derselben Ebene (und der Winkel zwischen und ist die Summe der beiden anderen, ). Dies ist die Position, in der die Verletzung der Dreieckungleichung durch die quadrierten Abstände am stärksten hervorgehoben ist.α β α+β rXY rXZ rYZ dXY dXZ dYZ X Z α+β
Denn wie Sie mit den Augen sehen können, übertrifft der grüne Quadratbereich die Summe der beiden roten Quadrate:d2YZ>d2XY+d2XZ .
Daher bezüglich
Entfernung können wir sagen, es ist nicht metrisch. Denn selbst wenn alle ursprünglich positiv waren, ist der Abstand das euklidische das selbst nicht metrisch ist.r d2
Was ist mit der zweiten Distanz?
Da Korrelation im Fall von Vektoren ist genormt , ist . ( In der Tat, ist von einer linearen Regression, eine Größe , die die quadrierte Korrelations der abhängigen Variablen mit etwas , ist orthogonal zu dem Prädiktor) . In diesem Fall ist den Sinusse der Vektoren zeichnen, und machen sie im Quadrat (weil wir reden über die Entfernung, dier cos 1−r2 sin2 1−r2 sin2 ) ist:
SSerror/SStotal
Obwohl es visuell nicht ganz offensichtlich ist, ist das grüne Quadrat wieder größer als die Summe der roten Bereichesin2YZ sin2XY+sin2XZ .
Es konnte bewiesen werden. In einer Ebene ist . Quadrieren Sie beide Seiten, da wir an interessiert sind .sin(α+β)=sinαcosβ+cosαsinβ sin2
Im letzten Ausdruck sind zwei wichtige Begriffe in Klammern angegeben. Wenn die zweite der beiden größer ist (oder sein kann) als die erste, dann ist , und der Abstand "d2" verletzt dreieckige Ungleichung. Und so ist es auf unserem Bild, wo ungefähr 40 Grad und ungefähr 30 Grad beträgt (Term 1 istsin2(α+β)>sin2α+sin2β α β
.1033
und Term 2 ist.2132
). "D2" ist nicht metrisch.Die Quadratwurzel von "d2" Abstand - das Sinus-Unähnlichkeitsmaß - ist jedoch metrisch (ich glaube). Du kannst mit verschiedenen und Winkeln in meinem Kreis spielen, um sicherzugehen. Ob "d2" auch in einer nicht-kollinearen Einstellung metrisch sein wird (dh drei Vektoren nicht in einer Ebene), kann ich zum gegenwärtigen Zeitpunkt nicht sagen, auch wenn ich dies vorläufig vermute.α β
quelle
Siehe auch diesen Preprint, den ich geschrieben habe: http://arxiv.org/abs/1208.3145 . Ich muss mir noch Zeit nehmen und es richtig einreichen. Die Zusammenfassung:
Das Fazit für Ihre Frage ist, dass d1 , d2 in der Tat keine Metrik sind und dass die Quadratwurzel von d2 tatsächlich eine richtige Metrik ist.
quelle
Nein.
Einfachstes Gegenbeispiel:
Für der Abstand überhaupt nicht definiert, unabhängig davon, wie groß Ihr ist.X=(0,0) Y
Jede konstante Reihe hat die Standardabweichung und bewirkt somit eine Division durch Null in der Definition von ...σ=0 Cor
Es handelt sich höchstens um eine Metrik für eine Teilmenge des Datenraums, die keine konstanten Reihen enthält.
quelle