Warum ist die KL-Divergenz nicht negativ?
Aus informationstheoretischer Sicht verstehe ich das so intuitiv:
Angenommen, es gibt zwei Ensembles und die aus der gleichen Menge von Elementen bestehen, die mit . und sind verschiedene Wahrscheinlichkeitsverteilungen über ensemble und jeweils.
Aus informationstheoretischer Sicht ist die kleinste Menge von Bits, die zum Aufzeichnen eines Elements für Ensemble erforderlich ist . Damit ist die Erwartung
Da diese Formel eine untere Schranke für die Bits setzt, die wir im Durchschnitt benötigen, so dass für ein anderes Ensemble das eine andere Wahrscheinlichkeitsverteilung bewirkt , die Schranke, die es für jedes Element gibt, mit Sicherheit kein Bit ist gegeben durch , was bedeutet, dass die Erwartung genommen wird,
setze ich hier nicht≥, dap(x)undq(x)unterschiedlich sind.
Dies ist mein intuitives Verständnis. Gibt es eine rein mathematische Methode, um zu beweisen, dass die KL-Divergenz nicht negativ ist? Das Problem kann wie folgt angegeben werden:
Angesichts und q ( x ) beide positiv über reale Linie und ∫ + ∞ - ∞ p ( x ) d x = 1 , ∫ + ∞ - ∞ q ( x ) d x = 1 . Beweisen Sie, dass ∫ + ∞ - ∞ p ( x ) ln p ( x ) ist nicht negativ.
Wie kann das bewiesen werden? Oder kann dies ohne zusätzliche Bedingungen bewiesen werden?
quelle
Antworten:
Beweis 1:
Beachten Sie zunächst, dass für alle a > 0 istlna≤a−1 a>0 .
Wir werden nun zeigen, dass was bedeutet, dass D K L ( p | | q ) ≥ 0 ist−DKL(p||q)≤0 DKL(p||q)≥0
For inequality (a) we used theln inequality explained in the beginning.
Alternatively you can start with Gibbs' inequality which states:
Then if we bring the left term to the right we get:
The reason I am not including this as a separate proof is because if you were to ask me to prove Gibbs' inequality, I would have to start from the non-negativity of KL divergence and do the same proof from the top.
Proof 2: We use the Log sum inequality:
Then we can show thatDKL(p||q)≥0 :
where we have used the Log sum inequality at (b).
Proof 3:
(Taken from the book "Elements of Information Theory" by Thomas M. Cover and Joy A. Thomas)
where at (c) we have used Jensen's inequality and the fact thatlog is a concave function.
quelle