Warum wurde die Kreuzentropie zur Standardverlustfunktion und nicht die Kullbeck-Leibler-Divergenz?

15

Die Kreuzentropie ist identisch mit der KL-Divergenz plus der Zielverteilungsentropie. KL ist gleich Null, wenn die beiden Verteilungen gleich sind. Dies scheint mir intuitiver zu sein als die Entropie der Zielverteilung.

Ich sage nicht, dass es in einem der anderen mehr Informationen gibt, außer dass eine menschliche Sichtweise eine Null intuitiver als eine positive findet. Natürlich verwendet man normalerweise eine Bewertungsmethode, um wirklich zu sehen, wie gut die Klassifizierung abläuft. Aber ist die Wahl der Kreuzentropie über KL historisch?

Josh Albert
quelle

Antworten:

12

Wenn es um Klassifizierungsprobleme beim maschinellen Lernen geht, sind die Kreuzentropie und die KL-Divergenz gleich . Wie bereits in der Frage ausgeführt, lautet die allgemeine Formel wie folgt:

H(p,q)=H(p)+DKL(p||q)

Wo p eine "wahre" Verteilung ist und q eine geschätzte Verteilung ist, ist H(p,q) die Kreuzentropie, H(p) ist die Entropie und D ist die Kullback-Leibler-Divergenz.

Beachten Sie, dass beim maschinellen Lernen p eine One-Hot-Darstellung der Grundwahrheitsklasse ist, dh

p=[0,...,1,...,0]

Das ist im Grunde ein Delta-Funktionsverteilung . Die Entropie der Delta-Funktion ist jedoch Null, daher ist die KL-Divergenz einfach gleich der Kreuzentropie.

H(p)0

Maxime
quelle
0

Kreuzentropie ist eine Entropie, keine Entropiedifferenz.

Ein natürlicherer und vielleicht intuitiverer Weg, die Kategorisierungskriterien zu konzipieren, ist eher eine Beziehung als eine Definition.

H(P,Q.)-H(P)=DKL(PQ.)=-ichP(ich)LogQ.(ich)P(ich)

Dies folgt Parallelen, die Claude Shannon mit John von Neumann identifizierte, zwischen quantenmechanischer Thermodynamik und Informationstheorie. Entropie ist keine absolute Größe. Da es sich um eine relative Entropie handelt, kann weder eine Entropie noch eine Kreuzentropie berechnet werden. Ihre Differenz kann jedoch entweder für den obigen diskreten Fall oder für den darunter liegenden kontinuierlichen Geschwisterfall gelten.

H(P,Q.)-H(P)=DKL(PQ.)=--p(x)Logq(x)p(x)dx

Obwohl wir vielleicht sehen H(...)=...In der Literatur ist die Angabe ohne H '(...) auf der rechten Seite der Gleichung technisch nicht korrekt. In solchen Fällen gibt es immer eine implizite Entropie, zu der die Entropie auf der linken Seite relativ ist.

FauChristian
quelle