Vorteile von Jeffries Matusita Entfernung

11

Laut einem Artikel, den ich lese, wird häufig der Abstand zwischen Jeffries und Matusita verwendet. Aber ich konnte nicht viele Informationen darüber finden, außer der folgenden Formel

JMD (x, y) =(xi2yi2)22

Es ähnelt dem euklidischen Abstand mit Ausnahme der Quadratwurzel

E (x, y) =(xiyi)22

Die JM-Entfernung soll hinsichtlich der Klassifizierung zuverlässiger sein als die euklidische Entfernung. Kann jemand erklären, warum dieser Unterschied die JM-Distanz verbessert?

romy_ngo
quelle
1
Ich kann keine maßgebliche Referenz finden, die diese Formel für die Jeffries-Matusita-Distanz verwendet. Die Formeln, die ich finde, basieren auf Kovarianzmatrizen für zwei Klassen und scheinen keine Beziehung zu der hier angegebenen zu haben, aber es scheint, dass zwei (oder mehr) verschiedene Dinge unter diesem Namen bekannt sind. Könnten Sie eine Referenz oder (noch besser) einen Link angeben? BTW, sind und zählt durch Zufall? (Wenn ja, gibt es eine natürliche Interpretation Ihrer Formel.)xiyi
whuber
1
@whuber: Vielleicht stehen und für undxyp(x)q(x)
user603
@ user603 Ja, ich denke du hast es. Nun werden die Zusammenhänge zu KL-Divergenzen und der Battacharyya-Maßnahme deutlich.
whuber

Antworten:

14

Einige wesentliche Unterschiede, die einer längeren Erklärung vorausgehen, sind folgende:

  1. Entscheidend: Der Jeffries-Matusita-Abstand gilt eher für Verteilungen als für Vektoren im Allgemeinen.
  2. Die oben angegebene JM-Distanzformel gilt nur für Vektoren, die diskrete Wahrscheinlichkeitsverteilungen darstellen (dh Vektoren, die sich zu 1 summieren).
  3. Im Gegensatz zum euklidischen Abstand kann der JM-Abstand auf alle Verteilungen verallgemeinert werden, für die der Bhattacharrya-Abstand formuliert werden kann.
  4. Die JM-Distanz hat über die Bhattacharrya-Distanz eine probabilistische Interpretation.

Die Jeffries-Matusita-Distanz, die in der Fernerkundungsliteratur besonders beliebt zu sein scheint, ist eine Transformation der Bhattacharrya-Distanz (ein beliebtes Maß für die Unähnlichkeit zwischen zwei Verteilungen, hier als ) aus dem Bereich auf den festen Bereich :bp,q[0,inf)[0,2]

JMp,q=2(1exp(b(p,q))

Ein praktischer Vorteil des JM-Abstands besteht laut diesem Artikel darin, dass diese Maßnahme "dazu neigt, hohe Trennbarkeitswerte zu unterdrücken, während niedrige Trennbarkeitswerte überbetont werden".

Der Bhattacharrya-Abstand misst die Unähnlichkeit zweier Verteilungen und im folgenden abstrakten kontinuierlichen Sinne: Wenn die Verteilungen und werden durch Histogramme erfasst, die durch Einheitslängenvektoren dargestellt werden (wobei das te Element die normalisierte Anzahl für das te von Bins ist). Dies wird: Und folglich ist der JM-Abstand für die beiden Histogramme: Welche, wobei zu beachten ist, dass für normalisierte Histogrammepq

b(p,q)=lnp(x)q(x)dx
pqiiN
b(p,q)=lni=1Npiqi
JMp,q=2(1i=1Npiqi)
ipi=1ist dieselbe wie die oben angegebene Formel:
JMp,q=i=1N(piqi)2=i=1N(pi2piqi+qi)=2(1i=1Npiqi)
rroowwllaanndd
quelle
+1 Vielen Dank, dass Sie sich gemeldet haben und sich sehr bemüht haben, die Situation zu klären.
whuber