Warum ist die Kreuzentropie intuitiv ein Maß für den Abstand zweier Wahrscheinlichkeitsverteilungen?

11

Für zwei diskrete Verteilungen und ist die Kreuzentropie definiert alspq

H(p,q)=xp(x)logq(x).

Ich frage mich, warum dies ein intuitives Maß für den Abstand zwischen zwei Wahrscheinlichkeitsverteilungen wäre.

Ich sehe, dass die Entropie von , die die "Überraschung" von misst . ist das Maß, das teilweise durch . Ich verstehe die intuitive Bedeutung der Definition immer noch nicht.H(p,p)ppH(p,q)pq

Kadistar
quelle
1
Ich empfehle Ihnen, die mathematische Definition von Metrik (und Entfernung) nachzuschlagen. Normalerweise ist das Befolgen dieser Eigenschaften das Minimum, dem eine Funktion folgen sollte, da es sich um eine Entfernung handelt. Ich hoffe es hilft. Obwohl es scheint, dass . Da es sich um eine Funktion handelt, die Teil der KL-Divergenz ist, würde ich intuitiv annehmen, dass es sich um eine Art Divergenz von p und q handelt, die durch die Entropie p versetzt ist. Es ist jedoch nur eine Vermutung. Außerdem ist Divergenz keine Metrik / Entfernung, daher wäre ich überrascht, wenn Cross Entropy dies ist. H(p,q)=H(p)+DKL(p||q)
Charlie Parker
Dann hilft das Verständnis der Kullback_leibler-Divergenz beim Verständnis der Kreuzentropie: stats.stackexchange.com/questions/188903/…
kjetil b halvorsen
1
Hier ist ein großartiges Video, das KL Divergence auf klare und einfache Weise erklärt: youtube.com/watch?v=ErfnhcEV1O8
Katherine Chen
Sehen Sie, ob diese "Intuition hinter Cross Entropy" hilft: medium.com/@siddharth.4oct/…
Siddharth Roy

Antworten:

6

Die Minimierung der Kreuzentropie wird häufig als Lernziel in generativen Modellen verwendet, wobei p die wahre Verteilung und q die gelernte Verteilung ist.

Die Kreuzentropie von p und q ist gleich der Entropie von p plus der KL-Divergenz zwischen p und q.

H(p,q)=H(p)+DKL(p||q)

Sie können sich als Konstante vorstellen, da direkt aus den Trainingsdaten stammt und vom Modell nicht gelernt wird. Daher ist nur der KL-Divergenzterm wichtig. Die Motivation für die KL-Divergenz als Abstand zwischen Wahrscheinlichkeitsverteilungen besteht darin, dass sie angibt, wie viele Informationsbits durch Verwendung der Verteilung p anstelle der Näherung q gewonnen werden.H(p)p

Beachten Sie, dass die KL-Divergenz keine richtige Abstandsmetrik ist. Zum einen ist es in p und q nicht symmetrisch. Wenn Sie eine Abstandsmetrik für Wahrscheinlichkeitsverteilungen benötigen, müssen Sie etwas anderes verwenden. Wenn Sie das Wort "Entfernung" jedoch informell verwenden, können Sie die KL-Divergenz verwenden.

Aaron
quelle
1
Warum kannst du dir p als Konstante vorstellen? Was lernst du"? q? Die ursprüngliche Frage sagte nichts über das Lernen aus, daher wäre ich daran interessiert, besser zu verstehen, was Sie meinten :)
Charlie Parker
2
bearbeitet es, um es klarer zu machen. p ist die Verteilung, die aus den Trainingsdaten stammt, und q wird vom Modell gelernt.
Aaron