Qualitativ was ist Kreuzentropie

15

Diese Frage gibt eine quantitative Definition der Kreuzentropie in Bezug auf ihre Formel.

Ich suche nach einer eher fiktiven Definition, sagt Wikipedia:

In der Informationstheorie misst die Kreuzentropie zwischen zwei Wahrscheinlichkeitsverteilungen die durchschnittliche Anzahl von Bits, die zum Identifizieren eines Ereignisses aus einer Menge von Möglichkeiten erforderlich sind, wenn ein Codierungsschema auf der Grundlage einer gegebenen Wahrscheinlichkeitsverteilung q anstelle der "wahren" Verteilung p verwendet wird .

Ich habe den Teil betont, der mir Schwierigkeiten bereitet, dies zu verstehen. Ich hätte gerne eine nette Definition, die kein separates (bereits vorhandenes) Verständnis von Entropy erfordert.

Lyndon White
quelle
1
Sie sind für eine Definition von fragen Quer -entropy, die zur gleichen Zeit, definiert Entropie selbst. Und das intuitiv ... Wenn Sie Probleme haben, das Konzept von Entropy selbst zu verstehen, ist es eine gute Idee, zuerst das Grundkonzept und dann eine der Erweiterungen zu verstehen.
Alecos Papadopoulos
1
Persönlich hatte ich ein grundlegendes Verständnis von Entropy (obwohl es fast 12 Monate her ist, seit ich es angewendet habe). Ein quantitativer Ausdruck von Entropie sollte jedoch in einen kurzen Absatz passen, und eine Kreuzentropie sollte nur einen weiteren enthalten. Ich bin der Meinung, dass eine gute Antwort beides beinhalten kann, sodass der Leser sich nicht auf eine andere Stelle beziehen muss, um sie zu verstehen.
Lyndon White
Siehe die verwandten Beiträge: stats.stackexchange.com/questions/66186/… und stats.stackexchange.com/questions/188903/…
kjetil b halvorsen

Antworten:

23

plog2(1/p)

ipilog2(1pi),

PQ

ipicode_length(i)=ipilog2(1qi),
ipilog2(1pi)

P=(12,12,0,0)

Wenn wir es dann optimal codieren möchten, codieren wir A als 0 und B als 1, sodass wir ein Bit der codierten Nachricht pro Buchstabe erhalten. (Und es ist genau die Shannon-Entropie unserer Wahrscheinlichkeitsverteilung.)

PQ=(14,14,14,14)

Piotr Migdal
quelle
Nette Erklärung, danke. Die Wikipedia-Definition lautet jedoch sum_i [p_i * log (q_i)]. Ihre Verwendung von 1 / q_i gibt die Anzahl der möglichen Zustände an, daher konvertiert log_2 diese in die Anzahl der Bits, die zum Codieren eines einzelnen Symbols erforderlich sind, aber die Wikipedia-Seite beschreibt etwas subtil anderes.
Redcalx
4
1/qilog(1/qi)=log(qi)