Was sind die Vorteile der Wasserstein-Metrik gegenüber der Kullback-Leibler-Divergenz?

25

Was ist der praktische Unterschied zwischen der Wasserstein-Metrik und der Kullback-Leibler-Divergenz ? Die Wasserstein-Metrik wird auch als Erdbewegungsdistanz bezeichnet .

Aus Wikipedia:

Wasserstein-Metrik (oder Vaserstein-Metrik) ist eine Abstandsfunktion, die zwischen Wahrscheinlichkeitsverteilungen auf einem gegebenen Metrikraum M definiert ist.

und

Die Kullback-Leibler-Divergenz ist ein Maß dafür, wie eine Wahrscheinlichkeitsverteilung von einer zweiten erwarteten Wahrscheinlichkeitsverteilung abweicht.

Ich habe gesehen, dass KL in Implementierungen für maschinelles Lernen verwendet wurde, bin aber kürzlich auf die Wasserstein-Metrik gestoßen. Gibt es eine gute Richtlinie für die Verwendung des einen oder anderen?

(Ich habe nicht genug Reputation, um ein neues Tag mit Wassersteinoder zu erstellen Earth mover's distance.)

distributions kullback-leibler metric wasserstein Thomas Fauskanger
quelle

Wo ich auf die Wasserstein-Metrik

gestoßen

1

Bearbeiten des Posts, um ein Wasserstein-Tag basierend auf der Posteranforderung hinzuzufügen. Füge auch eine Antwort hinzu.

Lucas Roberts

28

Wenn man die Vorteile der Wasserstein-Metrik im Vergleich zur KL-Divergenz betrachtet, ist die offensichtlichste, dass W eine Metrik ist, während die KL-Divergenz keine ist, da KL nicht symmetrisch ist (dh im Allgemeinen) und erfüllt nicht die Dreiecksungleichung (dh $D_{KL}(P||Q) \neq D_{KL}(Q||P)$ gilt im Allgemeinen nicht). $D_{KL}(R||P) \leq D_{KL}(Q||P) + D_{KL}(R||Q)$

Was den praktischen Unterschied betrifft, ist einer der wichtigsten, dass Wasserstein im Gegensatz zu KL (und vielen anderen Maßnahmen) den metrischen Raum berücksichtigt und was dies in weniger abstrakten Begriffen bedeutet, lässt sich vielleicht am besten anhand eines Beispiels erklären (Sie können es gerne überspringen) auf die Abbildung, Code nur zur Herstellung):

# define samples this way as scipy.stats.wasserstein_distance can't take probability distributions directly
sampP = [1,1,1,1,1,1,2,3,4,5]
sampQ = [1,2,3,4,5,5,5,5,5,5]
# and for scipy.stats.entropy (gives KL divergence here) we want distributions
P = np.unique(sampP, return_counts=True)[1] / len(sampP)
Q = np.unique(sampQ, return_counts=True)[1] / len(sampQ)
# compare to this sample / distribution:
sampQ2 = [1,2,2,2,2,2,2,3,4,5]
Q2 = np.unique(sampQ2, return_counts=True)[1] / len(sampQ2)

fig = plt.figure(figsize=(10,7))
fig.subplots_adjust(wspace=0.5)
plt.subplot(2,2,1)
plt.bar(np.arange(len(P)), P, color='r')
plt.xticks(np.arange(len(P)), np.arange(1,5), fontsize=0)
plt.subplot(2,2,3)
plt.bar(np.arange(len(Q)), Q, color='b')
plt.xticks(np.arange(len(Q)), np.arange(1,5))
plt.title("Wasserstein distance {:.4}\nKL divergence {:.4}".format(
    scipy.stats.wasserstein_distance(sampP, sampQ), scipy.stats.entropy(P, Q)), fontsize=10)
plt.subplot(2,2,2)
plt.bar(np.arange(len(P)), P, color='r')
plt.xticks(np.arange(len(P)), np.arange(1,5), fontsize=0)
plt.subplot(2,2,4)
plt.bar(np.arange(len(Q2)), Q2, color='b')
plt.xticks(np.arange(len(Q2)), np.arange(1,5))
plt.title("Wasserstein distance {:.4}\nKL divergence {:.4}".format(
    scipy.stats.wasserstein_distance(sampP, sampQ2), scipy.stats.entropy(P, Q2)), fontsize=10)
plt.show()

Hier sind die Maße zwischen roter und blauer Verteilung für die KL-Divergenz gleich, während der Wasserstein-Abstand die Arbeit misst, die erforderlich ist, um die Wahrscheinlichkeitsmasse unter Verwendung der x-Achse als „Straße“ vom roten in den blauen Zustand zu transportieren. Dieses Maß ist offensichtlich umso größer, je weiter die Wahrscheinlichkeitsmasse entfernt ist (daher der Alias-Abstand des Erdbewegers). Welches Sie also verwenden möchten, hängt von Ihrem Anwendungsbereich ab und davon, was Sie messen möchten. Anstelle der KL-Divergenz gibt es auch andere Optionen wie die Jensen-Shannon-Distanz, bei denen es sich um geeignete Metriken handelt.

Antike
quelle

6

Die Wasserstein-Metrik tritt am häufigsten bei optimalen Transportproblemen auf, bei denen das Ziel darin besteht, Dinge von einer bestimmten Konfiguration zu einer gewünschten Konfiguration zu minimalen Kosten oder in minimaler Entfernung zu bewegen. Der Kullback-Leibler (KL) ist eine Divergenz (keine Metrik) und taucht sehr häufig in Statistik, maschinellem Lernen und Informationstheorie auf.

Außerdem erfordert die Wasserstein-Metrik nicht, dass sich beide Kennzahlen im selben Wahrscheinlichkeitsraum befinden, wohingegen die KL-Divergenz erfordert, dass beide Kennzahlen im selben Wahrscheinlichkeitsraum definiert werden.

$k$ $\mu_i$ $\Sigma_i$ $i=1,2$

W_{2} (N_{0}, N_{1})^{2} = ‖ μ_{1} - μ_{2} ‖_{2}^{2} + t r (Σ_{1} + Σ_{2} - 2 (Σ_{2}^{1 / 2} Σ_{1} Σ_{2}^{1 / 2})^{1 / 2})

$W_{2} (\mathcal{N}_0, \mathcal{N}_1)^2 = \| \mu_1 - \mu_2 \|_2^2 + \mathop{\mathrm{tr}} \bigl( \Sigma_1 + \Sigma_2 - 2 \bigl( \Sigma_2^{1/2} \Sigma_1 \Sigma_2^{1/2} \bigr)^{1/2} \bigr)$

D_{KL} (N_{0}, N_{1}) = \frac{1}{2} (tr (Σ_{1}^{- 1} Σ_{0}) + (μ_{1} - μ_{0})^{T} Σ_{1}^{- 1} (μ_{1} - μ_{0}) - k + \ln (\frac{det Σ_{1}}{det Σ_{0}})) .

$D_\text{KL} (\mathcal{N}_0, \mathcal{N}_1) = \frac{1}{2}\left( \operatorname{tr} \left(\Sigma_1^{-1}\Sigma_0\right) + (\mu_1 - \mu_0)^\mathsf{T} \Sigma_1^{-1}(\mu_1 - \mu_0) - k + \ln \left(\frac{\det\Sigma_1}{\det\Sigma_0}\right) \right).$

Σ_{1} = Σ_{2} = w I_{k}

$\Sigma_1=\Sigma_2=wI_k$

μ_{1} \neq μ_{2}

$\mu_1\neq\mu_2$

0

$0$

- k

$-k$

0

$0$

W_{2} (N_{0}, N_{1})^{2} = ‖ μ_{1} - μ_{2} ‖_{2}^{2}

$W_{2} (\mathcal{N}_0, \mathcal{N}_1)^2 = \| \mu_1 - \mu_2 \|_2^2$

D_{KL} (N_{0}, N_{1}) = (μ_{1} - μ_{0})^{T} Σ_{1}^{- 1} (μ_{1} - μ_{0}) .

$D_\text{KL} (\mathcal{N}_0, \mathcal{N}_1) = (\mu_1 - \mu_0)^\mathsf{T} \Sigma_1^{-1}(\mu_1 - \mu_0).$

w

$w$ als eine große Menge in den Kovarianzmatrizen), wohingegen die KL-Divergenz dies tut. Dies liegt daran, dass der Wasserstein-Abstand eine Abstandsfunktion in den gemeinsamen Stützräumen der beiden Wahrscheinlichkeitsmaße ist. Im Gegensatz dazu ist die KL-Divergenz eine Divergenz und diese Divergenz ändert sich basierend auf dem Informationsraum (Signal-Rausch-Verhältnis) der Verteilungen.

Lucas Roberts
quelle

1

$P$ $Q$

Ich finde diese Eigenschaft eine sehr natürliche Erweiterung, um über den absoluten Unterschied zwischen zwei Zufallsvariablen zu sprechen

Justin Winokur
quelle

Was sind die Vorteile der Wasserstein-Metrik gegenüber der Kullback-Leibler-Divergenz?

Antworten: