Was ist Hellinger Distance und wann ist es anzuwenden?

19

Ich bin daran interessiert zu wissen, was wirklich in Hellinger Distance passiert (in einfachen Worten). Darüber hinaus interessiert mich auch, welche Arten von Problemen wir mit Hellinger Distance lösen können. Was sind die Vorteile von Hellinger Distance?

Smith Volka
quelle
9
Die Hellinger-Distanz ist ein probabilistisches Analogon zur euklidischen Distanz. Eine herausragende Eigenschaft ist ihre Symmetrie als Metrik. Solche mathematischen Eigenschaften sind nützlich, wenn Sie ein Papier schreiben und eine Abstandsfunktion benötigen, die bestimmte Eigenschaften besitzt, um Ihren Beweis zu ermöglichen. In der Anwendung kann jemand feststellen, dass eine Metrik für eine bestimmte Aufgabe bessere oder bessere Ergebnisse liefert als eine andere. ZB ist die Wasserstein-Distanz der letzte Schrei in generativen gegnerischen Netzwerken
Emre
Danke für den Kommentar. Ich bin auf diese Frage gestoßen, die der Frage, die ich jetzt habe, ziemlich ähnlich ist. datascience.stackexchange.com/questions/22324/… Bitte lassen Sie mich wissen, warum die Antwort Hellinger Distance als geeignet bezeichnet.
Smith Volka
2
Wahrscheinlich, um die Themen in einem metrischen Raum zu visualisieren . Eine weitere schöne Eigenschaft ist, dass der Hellinger-Abstand für Distributionen mit unterschiedlicher Unterstützung endlich ist. Es ist gut, dass Sie diese Fragen stellen. Ich schlage vor, verschiedene Metriken selbst auszuprobieren und die Ergebnisse zu beobachten.
Emre
Vielen Dank. Es ist eine gute Verbindung. hilft sehr. Aber ist die Hellinger-Distanz nur auf Themen beschränkt, die aus der Latent Dirichlet Allocation (LDA) stammen, wie im Link erwähnt?
Smith Volka
1
Nein, es besteht keine inhärente Verbindung zu LDA.
Emre

Antworten:

7

Die Hellinger-Distanz ist eine Metrik zur Messung der Differenz zwischen zwei Wahrscheinlichkeitsverteilungen. Es ist das probabilistische Analogon der euklidischen Distanz .

PQ

h(P,Q)=12PQ2

Dies ist nützlich, wenn der Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen quantifiziert wird. Zum Beispiel, wenn Sie eine Verteilung für Benutzer und Nichtbenutzer eines Dienstes schätzen. Wenn der Hellinger-Abstand zwischen diesen Gruppen für einige Features gering ist, sind diese Features für die Segmentierung statistisch nicht nützlich.

Brian Spiering
quelle