Analyse der Kullback-Leibler-Divergenz

18

Betrachten wir die folgenden zwei Wahrscheinlichkeitsverteilungen

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

Ich habe die Kullback-Leibler-Divergenz berechnet, die gleich ist. Ich möchte im Allgemeinen wissen, was diese Zahl mir zeigt. Generell zeigt mir die Kullback-Leibler-Divergenz, wie weit eine Wahrscheinlichkeitsverteilung von einer anderen entfernt ist, oder? Es ähnelt der Entropieterminologie, aber was bedeutet es in Bezug auf Zahlen? Wenn ich ein Ergebnis von 0,49 habe, kann ich dann sagen, dass ungefähr eine Verteilung um 50% von der anderen weit entfernt ist? $0.492820258$

interpretation information-theory kullback-leibler dato datuashvili
quelle

Sehen Sie sich die Diskussion hier an, die möglicherweise hilfreich ist.

Glen_b

Hast du den Wikipedia-Artikel gelesen?

Neil G

42

Die Kullback-Leibler-Divergenz ist keine eigentliche Metrik, da sie nicht symmetrisch ist und auch die Dreiecksungleichung nicht erfüllt. Die "Rollen", die von den beiden Verteilungen gespielt werden, sind also unterschiedlich, und es ist wichtig, diese Rollen entsprechend dem untersuchten realen Phänomen zu verteilen.

Wenn wir schreiben (das OP hat den Ausdruck mit Hilfe von Base-2-Logarithmen berechnet)

K (P | | Q) = \sum_{i} \log_{2} (p_{i} / q_{i}) p_{i}

$\mathbb K\left(P||Q\right) = \sum_{i}\log_2 (p_i/q_i)p_i$

Wir betrachten die Verteilung als die "Zielverteilung" (normalerweise als die wahre Verteilung betrachtet), die wir mit der Verteilung approximieren. $P$ $Q$

Jetzt,

\sum_{i} \log_{2} (p_{i} / q_{i}) p_{i} = \sum_{i} \log_{2} (p_{i}) p_{i} - \sum_{i} \log_{2} (q_{i}) p_{i} = - H (P) - E_{P} (\ln (Q))

$\sum_{i}\log_2 (p_i/q_i)p_i = \sum_{i}\log_2 (p_i)p_i-\sum_{i}\log_2 (q_i)p_i = -H(P) - E_P(\ln(Q))$

wobei ist die Shannon - Entropie der Verteilung und wird als die "Quer Entropie genannt und " -auch nicht symmetrisch. $H(P)$ $P$ $-E_P(\ln(Q))$ $P$ $Q$

Schreiben

K (P | | Q) = H (P, Q) - H (P)

$\mathbb K\left(P||Q\right) = H(P,Q) - H(P)$

(Auch hier zeigt die Reihenfolge, in der wir die Verteilungen im Ausdruck der Kreuzentropie aufschreiben, da sie ebenfalls nicht symmetrisch sind), dass die KL-Divergenz eine Zunahme der Entropie über die unvermeidbare Entropie der Verteilung widerspiegelt . $P$

Also, nein , KL-Divergenz ist besser nicht als "Abstandsmaß" zwischen Verteilungen zu interpretieren, sondern als Maß für die Entropiezunahme aufgrund der Verwendung einer Annäherung an die wahre Verteilung anstatt der wahren Verteilung selbst .

Wir befinden uns also im Land der Informationstheorie. Um es von den Meistern zu hören (Cover & Thomas) "

... wenn wir die wahre Verteilung der Zufallsvariablen kennen würden, könnten wir einen Code mit durchschnittlicher Beschreibungslänge konstruieren . Wenn wir stattdessen den Code für eine Verteilung würden, bräuchten wir durchschnittlich Bits, um die Zufallsvariable zu beschreiben. $P$ $H(P)$ $Q$ $H(P) + \mathbb K (P||Q)$

Die gleichen weisen Leute sagen

... es ist kein echter Abstand zwischen Verteilungen, da er nicht symmetrisch ist und die Dreiecksungleichung nicht erfüllt. Trotzdem ist es oft nützlich, die relative Entropie als „Distanz“ zwischen Verteilungen zu betrachten.

Dieser letztere Ansatz ist jedoch vor allem dann nützlich, wenn versucht wird, die KL-Divergenz zu minimieren , um ein Schätzverfahren zu optimieren. Für die Interpretation seines Zahlenwertes an sich ist es nicht sinnvoll, und man sollte den Ansatz der "Entropieerhöhung" vorziehen.

Für die spezifischen Verteilungen der Frage (immer unter Verwendung von Logarithmen zur Basis 2)

K (P | | Q) = 0.49282, H (P) = 1.9486

$\mathbb K\left(P||Q\right) = 0.49282,\;\;\;\; H(P) = 1.9486$

$Q$ $P$

Alecos Papadopoulos
quelle

Sehr nützliche und informative Antwort.

MadHatter

1

KL-Divergenz misst den Informationsverlust, der erforderlich ist, um ein Symbol aus P mit Symbolen aus Q darzustellen. Wenn Sie einen Wert von 0,49 erhalten, bedeutet dies, dass Sie im Durchschnitt zwei Symbole aus P mit den zwei entsprechenden Symbolen aus Q plus einem Bit Zusatzinformation codieren können .

Aaron
quelle

1

$P$ $Q$ $P$

Neil G
quelle

Analyse der Kullback-Leibler-Divergenz

Antworten: