Was ist der Unterschied zwischen Kreuzentropie und KL-Divergenz?

24

Sowohl die Kreuzentropie als auch die KL-Divergenz sind Werkzeuge zur Messung des Abstands zwischen zwei Wahrscheinlichkeitsverteilungen. Was ist der Unterschied? K L ( P | Q ) = x P ( x ) log P ( x )

H(P,Q)=xP(x)logQ(x)
Darüber hinaus entspricht die Minimierung von KL der Minimierung der Kreuzentropie.
KL(P|Q)=xP(x)logP(x)Q(x)

Ich möchte sie instinktiv kennenlernen.

Vielen Dank im Voraus.

Jourd
quelle

Antworten:

22

Sie benötigen einige Bedingungen, um die Äquivalenz zwischen der Minimierung der Kreuzentropie und der Minimierung der KL-Divergenz zu behaupten. Ich werde Ihre Frage in den Kontext von Klassifizierungsproblemen stellen, bei denen Kreuzentropie als Verlustfunktion verwendet wird.

S(v)=ip(vi)logp(vi),
p(vi)viS(v)

Zum Beispiel ist das Ereignis A I will die eventuallyfast sicher (vielleicht können wir das Alterungsproblem für Wort lösen almost), daher hat es eine niedrige Entropie the aging problem cannot be solved, für deren Gewissheit nur die Informationen von erforderlich sind . Das Ereignis B The president will die in 50 yearsist jedoch viel unsicherer als A und benötigt daher mehr Informationen, um die Unsicherheiten zu beseitigen.

DKL(AB)=ipA(vi)logpA(vi)pA(vi)logpB(vi),
DKL beschreibt, wie unterschiedlich B von A aus der Sicht von A ist.

H(A,B)=ipA(vi)logpB(vi).
H(A,B)=DKL(AB)+SA.
SAH(A,B)DKL(AB)

P(D)P(model)P(truth)P(truth)P(D)

P(model)P(D)P(truth)
DKL(P(D)P(model))DS(D) ist als Konstante festgelegt.

doppelt
quelle
Vielen Dank für Ihre Antwort. Es vertiefte mein Verständnis. Wenn wir also einen Datensatz haben, ist es effektiver, die Kreuzentropie zu minimieren, als KL, oder? Ich kann jedoch den richtigen Gebrauch nicht verstehen. Mit anderen Worten, wann sollte ich KL oder Kreuzentropie minimieren?
Jourd
1
Nachdem Sie Ihre Antwort gelesen haben, ist es meines Erachtens nicht sinnvoll, KL zu minimieren, da wir immer einen Datensatz P (D) haben.
Jourd
Idealerweise würde man die KL-Divergenz wählen, um den Abstand zwischen zwei Verteilungen zu messen. Im Zusammenhang mit der Klassifizierung ergibt sich der Kreuzentropieverlust normalerweise aus der negativen Log-Wahrscheinlichkeit, beispielsweise wenn Sie die Bernoulli-Verteilung zur Modellierung Ihrer Daten wählen.
Doppel
Vielleicht möchten Sie sich diesen großartigen Beitrag ansehen . Die Symmetrie ist bei der Klassifizierung kein Problem, da das Ziel maschineller Lernmodelle darin besteht, die vorhergesagte Verteilung so nah wie möglich an das feste P (D) heranzuführen, obwohl normalerweise Regularisierungen hinzugefügt werden, um eine Überanpassung zu vermeiden.
Doppel
SA
6

H(q,p)=DKL(p,q)+H(p)=ipilog(qi)

pp

zewen liu
quelle
1
Diese Antwort habe ich gesucht. Nach meiner eigenen aktuellen Erfahrung, bei der Zielwahrscheinlichkeiten gelernt werden, ist BCE weitaus robuster als KL. Grundsätzlich war KL unbrauchbar. KL und BCE sind keine "äquivalenten" Verlustfunktionen.
Nicholas Leonard