Warum ist KL-Divergenz nicht negativ?

17

Warum ist die KL-Divergenz nicht negativ?

Aus informationstheoretischer Sicht verstehe ich das so intuitiv:

Angenommen, es gibt zwei Ensembles A und B die aus der gleichen Menge von Elementen bestehen, die mit x . p(x) und q(x) sind verschiedene Wahrscheinlichkeitsverteilungen über ensemble und jeweils.AB

Aus informationstheoretischer Sicht ist log2(P(x)) die kleinste Menge von Bits, die zum Aufzeichnen eines Elements x für Ensemble erforderlich ist A. Damit ist die Erwartung

xensemblep(x)ln(p(x))
als mindestens wie viele Bits interpretiert werden, die wir imDurchschnittzum Aufzeichnen eines Elements in benötigenA.

Da diese Formel eine untere Schranke für die Bits setzt, die wir im Durchschnitt benötigen, so dass für ein anderes Ensemble B das eine andere Wahrscheinlichkeitsverteilung bewirkt q(x), die Schranke, die es für jedes Element x gibt, mit Sicherheit kein Bit ist gegeben durch p(x) , was bedeutet, dass die Erwartung genommen wird,

xensemblep(x)ln(q(x))
diese durchschnittliche Länge wird sicherlich größer sein als die erstere, was zu
setze ich hier nicht, dap(x)undq(x)unterschiedlich sind.
xensemblep(x)ln(p(x))ln(q(x))>0
p(x)q(x)

Dies ist mein intuitives Verständnis. Gibt es eine rein mathematische Methode, um zu beweisen, dass die KL-Divergenz nicht negativ ist? Das Problem kann wie folgt angegeben werden:

Angesichts und q ( x ) beide positiv über reale Linie und + - p ( x ) d x = 1 , + - q ( x ) d x = 1 . Beweisen Sie, dass + - p ( x ) ln p ( x )p(x)q(x)+p(x)dx=1+q(x)dx=1 ist nicht negativ.

+p(x)lnp(x)q(x)

Wie kann das bewiesen werden? Oder kann dies ohne zusätzliche Bedingungen bewiesen werden?

meTchaikovsky
quelle
1
Wenn Sie den Beweis für die verstehen Fano Ungleichung ist es leicht zu leiten , die Nichtnegativitätsbedingungen der relativen Entropie.
Lerner Zhang

Antworten:

28

Beweis 1:

Beachten Sie zunächst, dass für alle a > 0 istlnaa1a>0 .

Wir werden nun zeigen, dass was bedeutet, dass D K L ( p | | q ) 0 istDKL(p||q)0DKL(p||q)0

D(p||q)=xp(x)lnp(x)q(x)=xp(x)lnq(x)p(x)(a)xp(x)(q(x)p(x)1)=xq(x)xp(x)=11=0

For inequality (a) we used the ln inequality explained in the beginning.

Alternatively you can start with Gibbs' inequality which states:

xp(x)log2p(x)xp(x)log2q(x)

Then if we bring the left term to the right we get:

xp(x)log2p(x)xp(x)log2q(x)0xp(x)log2p(x)q(x)0

The reason I am not including this as a separate proof is because if you were to ask me to prove Gibbs' inequality, I would have to start from the non-negativity of KL divergence and do the same proof from the top.


Proof 2: We use the Log sum inequality:

i=1nailog2aibi(i=1nai)log2i=1naii=1nbi

Then we can show that DKL(p||q)0:

D(p||q)=xp(x)log2p(x)q(x)(b)(xp(x))log2xp(x)xq(x)=1log211=0

where we have used the Log sum inequality at (b).


Proof 3:

(Taken from the book "Elements of Information Theory" by Thomas M. Cover and Joy A. Thomas)

D(p||q)=xp(x)log2p(x)q(x)=xp(x)log2q(x)p(x)(c)log2xp(x)q(x)p(x)=log21=0

where at (c) we have used Jensen's inequality and the fact that log is a concave function.

Andreas G.
quelle