Mahalanobis-Abstand zwischen zwei bivariaten Verteilungen mit unterschiedlichen Kovarianzen

8

Die Frage ist so ziemlich im Titel enthalten. Was ist der Mahalanobis-Abstand für zwei Verteilungen verschiedener Kovarianzmatrizen? Was ich bisher gefunden habe, setzt für beide Distributionen die gleiche Kovarianz voraus, dh etwas in dieser Art:

ΔTΣ1Δ

Was ist, wenn ich zwei verschiedene ?Σ

Hinweis: - Das Problem ist folgendes: Es gibt zwei bivariate Verteilungen mit denselben Abmessungen, die jedoch gedreht und relativ zueinander übersetzt werden (sorry, ich komme aus einem rein mathematischen Hintergrund, nicht aus einem statistischen). Ich muss ihren Grad der Überlappung / Entfernung messen.

* Update: * Was in meiner Anfrage möglicherweise impliziert ist oder nicht, ist, dass ich einen Abstand zwischen den Mitteln der beiden Verteilungen benötige. Ich weiß, wo die Mittel sind, aber da die beiden Verteilungen gegeneinander gedreht sind, muss ich unterschiedlichen Orientierungen unterschiedliche Gewichte zuweisen, und daher funktioniert ein einfacher euklidischer Abstand zwischen den Mitteln nicht. Wie ich es verstanden habe, kann der Mahalanobis-Abstand nicht verwendet werden, um diese Informationen zu messen, wenn die Verteilungen unterschiedlich geformt sind (anscheinend funktioniert er mit zwei multivariaten Normalverteilungen identischer Kovarianzen, aber nicht im allgemeinen Fall). Gibt es ein gutes Maß, das diesen Wunsch codiert, Orientierungen mit unterschiedlichen Gewichten zu codieren?

Kristian D'Amato
quelle
1
Die Mahalanobis-Entfernung macht keinen Sinn, wenn sich die Verteilungen unterscheiden. (Es ist, als würde man sagen: "Peter lebt auf einer Kugel und Paul lebt auf einer euklidischen Ebene. Wie berechnen wir den Abstand zwischen ihnen?") Vielleicht könnten Sie einen Schritt zurücktreten und uns helfen, die Motivation für die Frage zu verstehen: Was genau tun Sie? hier erreichen wollen? Was ist der statistische Kontext?
whuber
Okay, ich habe so viel vermutet. Der Grund , warum ich frage ist , dass ich die folgende Gleichung verwendet wird , gesehen hat einen ‚Mahalanobis‘ Abstand zu berechnen, oder so behauptet: Ich bin nicht sicher , dass das ein Mahalanobis Entfernung; Ich spiegele nur wider, was behauptet wurde. Würde eine Bhattacharya-Distanz an ihrer Stelle besser funktionieren?
ΔT\(Σ1Σ2\)1Δ
Kristian D'Amato
@ k-damato Mahalanobis Abstand misst den Abstand zwischen Punkten, nicht Verteilungen.
VQV
Okay, erkennt jemand die obige Gleichung als etwas Sinnvolles? Die Deltas sind Verschiebungsvektoren.
Kristian D'Amato
@Kristian Ich habe Ihre beiden doppelten Konten zusammengeführt. Bitte benutzen Sie ab sofort Ihr registriertes Konto.
Chl

Antworten:

6

Es gibt viele Begriffe von Abstand zwischen Wahrscheinlichkeitsverteilungen. Welche Sie verwenden, hängt von Ihren Zielen ab. Der Gesamtabweichungsabstand ist eine natürliche Methode zur Messung der Überlappung zwischen Verteilungen. Wenn Sie mit multivariaten Normalen arbeiten, ist die Kullback-Leibler-Divergenz mathematisch praktisch. Obwohl es sich eigentlich nicht um eine Entfernung handelt (da sie nicht symmetrisch ist und der Dreiecksungleichung nicht gehorcht), begrenzt sie die gesamte Variationsentfernung nach oben - siehe Pinskers Ungleichung .

vqv
quelle
2
Einige der jüngsten Diskussionen hier haben sich auf Änderungen der KL-Divergenz konzentriert, die zu einer korrekten Metrik führen. Falls Sie interessiert sind, sehen Sie hier und hier .
Kardinal
3

Intro Wie @vqv erwähnte Total Variation und Kullback Leibler sind zwei interessante Entfernungen. Der erste ist sinnvoll, da er in direktem Zusammenhang mit Fehlern des ersten und zweiten Typs beim Testen von Hypothesen stehen kann. Das Problem mit der Gesamtvariationsentfernung besteht darin, dass die Berechnung schwierig sein kann. Die Kullback Leibler Distanz ist einfacher zu berechnen und ich werde später darauf zurückkommen. Es ist nicht symetrisch, kann aber symetrisch gemacht werden (irgendwie ein bisschen künstlich).

Antwort Etwas, das ich hier erwähne , ist, dass, wenn das logarithmische Wahrscheinlichkeitsverhältnis zwischen Ihren beiden Gaußschen Maßen P 0 , P 1 (sagen wir, dass für i = 0 , 1 P i den Mittelwert μ i und die Kovarianz C i hat ), das Fehlermaß ebenfalls überschneidet (im Gaußschen Fall fand ich es eigentlich ganz zentral) istLP0,P1i=0,1 PiμiCi

LL2(P1/2)2

für ein gut gewähltes .P1/2

In einfachen Worten :

  • Es kann verschiedene interessante "Richtungs" -Rotationen geben, die unter Verwendung Ihrer Formel mit einer der definierten "interpolierten" Kovarianzmatrizen ( oder ) erhalten werden am Ende dieses Beitrags (die Nummer ist die, die Sie in Ihrem Kommentar zu Ihrer Frage vorschlagen). i = 1 , 2 , 3. , 4 5 5Σ=Ci,1/2i=1,2,3,455
  • Da Ihre beiden Verteilungen unterschiedliche Kovarianzen aufweisen, reicht es nicht aus, die Mittelwerte zu vergleichen . Sie müssen auch die Kovarianzen vergleichen.

Lassen Sie mich Ihnen erklären, warum dies mein Gefühl ist, wie Sie dies im Fall von berechnen können und wie Sie wählen .P 1 / 2C1C0P1/2

Linearer Fall Wenn .C1=C0=Σ

σ=ΔΣ1Δ=2LL2(P1/2)2

wobei die "Interpolation" zwischen und (Gauß mit Kovarianz und Mittelwert ). Beachten Sie, dass in diesem Fall der Hellinger-Abstand, der gesamte Variationsabstand, alle mit geschrieben werden kann . P 1 P 0 Σ ( μ 1 + μ 0 ) / 2 σP1/2P1P0Σ(μ1+μ0)/2σ

So berechnen Sie im allgemeinen FallL Eine natürliche Frage, die sich aus Ihrer (und meiner ) Frage ergibt, ist, was eine natürliche "Interpolation" zwischen und wenn . Hier kann das Wort natürlich benutzerspezifisch sein, aber es kann zum Beispiel mit der besten Interpolation zusammenhängen, eine enge Obergrenze mit einem anderen Abstand zu haben (z. B. Abstand hier ) P 1 P 0 C 1 C 0 L 1P1P0C1C0L1

Schreiben ( ) kann helfen, , wo sich die Interpolationsaufgabe befindet, aber:

L=ϕ(Ci1/2(xμi))ϕ(Cj1/2(xμj))12log(CiCj)
i=0,j=1

L(x)=12Aij(xsij),xsijRp+Gij,xsijRpcij,[1]

mit

Aij=CiCj,Gij=Sijmij,Sij=Ci+Cj2,
cij=18Aijmij,mijRp+12log|det(CjCi)|

und

mij=μiμjandsij=μi+μj2

ist für Rechenzwecke relevanter. Für jedes Gaußsche mit dem Mittelwert und der Kovarianz die Berechnung von aus Gleichung etwas technisch aber fassbar. Sie können es auch verwenden, um die Kulback-Leibler-Entfernung zu berechnen.P1/2s01CLL2(P1/2)21

Welche Interpolation sollten wir wählen (dh wie man wählt ) ?P1/2 Aus Gleichung geht klar hervor, dass es im "quadratischen" Fall viele verschiedene Kandidaten für (Interpolation) gibt. Die beiden Kandidaten, die ich als "am natürlichsten" (subjektiv :) ergeben sich aus der Definition einer Verteilung mit dem Mittelwert für :1P1/2t[0,1]Pttμ1+(1t)μ0

  1. ξ t = tPt1 als Verteilung von (wobei aus ) mit der Kovarianz ).
    ξt=tξ1+(1t)ξ0
    ξiPi i=0,1Ct,1=(tC11/2+(1t)C01/2)2
  2. Pt2 mit inverser KovarianzCt,21=tC11+(1t)C01
  3. Pt3 mit KovarianzCt,3=tC1+(1t)C0
  4. C - 1 t , 4 = ( t C - 1 / 2 1 + ( 1 - t ) C - 1 / 2 0 ) 2Pt4 mit inverser KovarianzCt,41=(tC11/2+(1t)C01/2)2

BEARBEITEN: Derjenige, den Sie in einem Kommentar zu Ihrer Frage vorschlagen, könnte , warum nicht ...Ct,5=C1tC01t

Ich habe meine Lieblingswahl, die nicht die erste ist :) Ich habe nicht viel Zeit, um das hier zu diskutieren. Vielleicht bearbeite ich diese Antwort später ...

Robin Girard
quelle
2

Dies ist alt, aber für andere, die dies lesen, spiegelt die Kovarianzmatrix die Rotation der Gaußschen Verteilungen wider und der Mittelwert spiegelt die Translation oder zentrale Position der Verteilung wider. Um den Mahab-Abstand zu bewerten, ist es einfach D = ((m2-m1) * inv ((C1 + C2) / 2) * (m2-m1) '). Wenn Sie nun den Verdacht haben, dass die beiden bivariaten Verteilungen gleich sind, aber den Verdacht haben, dass sie gedreht wurden, berechnen Sie die beiden Paare von Eigenvektoren und Eigenwerten für jede Verteilung. Die Eigenvektoren zeigen in Richtung der Ausbreitung der bivariaten Daten entlang der Haupt- und Nebenachse, und die Eigenwerte bezeichnen die Länge dieser Ausbreitung. Wenn die Eigenwerte gleich sind, sind die beiden Verteilungen gleich, aber gedreht. Nehmen Sie acos des Punktprodukts zwischen den Eigenvektoren, um den Drehwinkel zu erhalten.

Sturmjäger
quelle