Wie ist die Differentialentropie zu interpretieren?

14

Ich habe kürzlich diesen Artikel über die Entropie einer diskreten Wahrscheinlichkeitsverteilung gelesen . Es beschreibt eine nette Art, über Entropie nachzudenken, da die erwartete Anzahl von Bits (zumindest bei Verwendung von in Ihrer Entropiedefinition) zum Codieren einer Nachricht benötigt wird, wenn Ihre Codierung unter Berücksichtigung der Wahrscheinlichkeitsverteilung der von Ihnen verwendeten Wörter optimal ist.log2

Wenn ich jedoch wie hier auf den kontinuierlichen Fall glaube ich, dass diese Denkweise zusammenbricht, da für eine kontinuierliche Wahrscheinlichkeitsverteilung (bitte korrigieren Sie mich, wenn das falsch ist), also ich Ich habe mich gefragt, ob es eine gute Möglichkeit gibt, darüber nachzudenken, was kontinuierliche Entropie genau wie im diskreten Fall bedeutet.p ( x )xp(x)=p(x)

dippynark
quelle
Haben Sie versucht, Wikipedia-Artikel über Entropie und Differentialentropie zu lesen?
TTNPHNS
Eine stetige Verteilung hat keine Wahrscheinlichkeitsmassenfunktion. Das Analoge im stetigen Fall ist das Integral einer Wahrscheinlichkeitsdichte und das Integral über den gesamten Bereich von x gleich 1.
Michael R. Chernick
@MichaelChernick Ich habe nicht gesagt, dass es einen gibt, aber die Art und Weise, wie man über den diskreten Fall nachdenkt, hängt von der Tatsache ab, dass die Summe gleich 1 ist.
dippynark
@ttnphns nein, ich habe nicht, aber ich werde sie jetzt überprüfen, danke.
Dippynark
Siehe auch stats.stackexchange.com/questions/66186/… zur Interpretation der Shannon-Entropie. Einige der Ideen können übertragen werden.
kjetil b halvorsen

Antworten:

14

Es gibt keine Interpretation der differentiellen Entropie, die so aussagekräftig oder nützlich wäre wie die der Entropie. Das Problem bei kontinuierlichen Zufallsvariablen besteht darin, dass ihre Werte typischerweise eine Wahrscheinlichkeit von 0 haben und daher eine unendliche Anzahl von Bits zum Codieren erfordern würden.

Wenn Sie die Grenze der diskreten Entropie durch Messung der Wahrscheinlichkeit von Intervallen , erhalten Sie[nε,(n+1)ε[

p(x)log2p(x)dxlog2ε

und nicht die Differentialentropie. Diese Größe ist in gewisser Weise aussagekräftiger, wird jedoch mit immer kürzeren Intervallen bis ins Unendliche variieren. Es ist sinnvoll, da wir immer mehr Bits benötigen, um zu codieren, in welches der vielen Intervalle der Wert unseres Zufallswerts fällt.

Eine nützlichere Größe für kontinuierliche Verteilungen ist die relative Entropie (auch Kullback-Leibler-Divergenz). Für diskrete Verteilungen:

DKL[P||Q]=xP(x)log2P(x)Q(x).

Es misst die Anzahl der zusätzlichen Bits, die verwendet werden, wenn die wahre Verteilung , aber wir verwenden Bits, um zu codieren . Wir können die Grenze der relativen Entropie nehmen und ankommenPlogQ2(x)x

DKL[p∣∣q]=p(x)log2p(x)q(x)dx,

weil wird. Bei kontinuierlichen Verteilungen entspricht dies der Anzahl der zusätzlichen Bits, die bei unendlich kleinen Bins verwendet werden. Dies ist sowohl für kontinuierliche als auch für diskrete Verteilungen immer nicht negativ.log2ε

Nun, wir könnten von differentiellen Entropie denken als die negative relative Entropie zwischen und einer nicht - normierte Dichte ,p(x)λ(x)=1

p(x)log2p(x)dx=DKL[p∣∣λ].

Ihre Interpretation wäre der Unterschied in der Anzahl der Bits, die erforderlich sind, wenn stattdessen Bits zum Codieren des ten Intervalls verwendet werden von Bits. Obwohl ersteres optimal wäre, kann dieser Unterschied jetzt negativ sein, da schummelt (indem es nicht auf 1 integriert) und daher im Durchschnitt weniger Bits als theoretisch möglich zuweist.log2nε(n+1)εp(x)dxnlogελ

Siehe Sergio Verdus Vortrag für eine großartige Einführung in die relative Entropie.

Lucas
quelle