Für zwei diskrete Verteilungen und ist die Kreuzentropie definiert als
Ich frage mich, warum dies ein intuitives Maß für den Abstand zwischen zwei Wahrscheinlichkeitsverteilungen wäre.
Ich sehe, dass die Entropie von , die die "Überraschung" von misst . ist das Maß, das teilweise durch . Ich verstehe die intuitive Bedeutung der Definition immer noch nicht.
probability
distributions
cross-entropy
Kadistar
quelle
quelle
Antworten:
Die Minimierung der Kreuzentropie wird häufig als Lernziel in generativen Modellen verwendet, wobei p die wahre Verteilung und q die gelernte Verteilung ist.
Die Kreuzentropie von p und q ist gleich der Entropie von p plus der KL-Divergenz zwischen p und q.
Sie können sich als Konstante vorstellen, da direkt aus den Trainingsdaten stammt und vom Modell nicht gelernt wird. Daher ist nur der KL-Divergenzterm wichtig. Die Motivation für die KL-Divergenz als Abstand zwischen Wahrscheinlichkeitsverteilungen besteht darin, dass sie angibt, wie viele Informationsbits durch Verwendung der Verteilung p anstelle der Näherung q gewonnen werden.H(p) p
Beachten Sie, dass die KL-Divergenz keine richtige Abstandsmetrik ist. Zum einen ist es in p und q nicht symmetrisch. Wenn Sie eine Abstandsmetrik für Wahrscheinlichkeitsverteilungen benötigen, müssen Sie etwas anderes verwenden. Wenn Sie das Wort "Entfernung" jedoch informell verwenden, können Sie die KL-Divergenz verwenden.
quelle