Was ist der praktische Unterschied zwischen der Wasserstein-Metrik und der Kullback-Leibler-Divergenz ? Die Wasserstein-Metrik wird auch als Erdbewegungsdistanz bezeichnet .
Aus Wikipedia:
Wasserstein-Metrik (oder Vaserstein-Metrik) ist eine Abstandsfunktion, die zwischen Wahrscheinlichkeitsverteilungen auf einem gegebenen Metrikraum M definiert ist.
und
Die Kullback-Leibler-Divergenz ist ein Maß dafür, wie eine Wahrscheinlichkeitsverteilung von einer zweiten erwarteten Wahrscheinlichkeitsverteilung abweicht.
Ich habe gesehen, dass KL in Implementierungen für maschinelles Lernen verwendet wurde, bin aber kürzlich auf die Wasserstein-Metrik gestoßen. Gibt es eine gute Richtlinie für die Verwendung des einen oder anderen?
(Ich habe nicht genug Reputation, um ein neues Tag mit Wasserstein
oder zu erstellen Earth mover's distance
.)
quelle
Antworten:
Wenn man die Vorteile der Wasserstein-Metrik im Vergleich zur KL-Divergenz betrachtet, ist die offensichtlichste, dass W eine Metrik ist, während die KL-Divergenz keine ist, da KL nicht symmetrisch ist (dh im Allgemeinen) und erfüllt nicht die Dreiecksungleichung (dh D K L ( R | | P ) ≤ D K L ( Q | | P ) + D KDKL( S.| | Q)≠ DKL( Q | | P) gilt im Allgemeinen nicht).DKL( R | | P) ≤ DKL( Q | | P) + DKL( R | | Q )
Was den praktischen Unterschied betrifft, ist einer der wichtigsten, dass Wasserstein im Gegensatz zu KL (und vielen anderen Maßnahmen) den metrischen Raum berücksichtigt und was dies in weniger abstrakten Begriffen bedeutet, lässt sich vielleicht am besten anhand eines Beispiels erklären (Sie können es gerne überspringen) auf die Abbildung, Code nur zur Herstellung):
Hier sind die Maße zwischen roter und blauer Verteilung für die KL-Divergenz gleich, während der Wasserstein-Abstand die Arbeit misst, die erforderlich ist, um die Wahrscheinlichkeitsmasse unter Verwendung der x-Achse als „Straße“ vom roten in den blauen Zustand zu transportieren. Dieses Maß ist offensichtlich umso größer, je weiter die Wahrscheinlichkeitsmasse entfernt ist (daher der Alias-Abstand des Erdbewegers). Welches Sie also verwenden möchten, hängt von Ihrem Anwendungsbereich ab und davon, was Sie messen möchten. Anstelle der KL-Divergenz gibt es auch andere Optionen wie die Jensen-Shannon-Distanz, bei denen es sich um geeignete Metriken handelt.
quelle
Die Wasserstein-Metrik tritt am häufigsten bei optimalen Transportproblemen auf, bei denen das Ziel darin besteht, Dinge von einer bestimmten Konfiguration zu einer gewünschten Konfiguration zu minimalen Kosten oder in minimaler Entfernung zu bewegen. Der Kullback-Leibler (KL) ist eine Divergenz (keine Metrik) und taucht sehr häufig in Statistik, maschinellem Lernen und Informationstheorie auf.
Außerdem erfordert die Wasserstein-Metrik nicht, dass sich beide Kennzahlen im selben Wahrscheinlichkeitsraum befinden, wohingegen die KL-Divergenz erfordert, dass beide Kennzahlen im selben Wahrscheinlichkeitsraum definiert werden.
quelle
Ich finde diese Eigenschaft eine sehr natürliche Erweiterung, um über den absoluten Unterschied zwischen zwei Zufallsvariablen zu sprechen
quelle