Ich habe kürzlich diesen Artikel über die Entropie einer diskreten Wahrscheinlichkeitsverteilung gelesen . Es beschreibt eine nette Art, über Entropie nachzudenken, da die erwartete Anzahl von Bits (zumindest bei Verwendung von in Ihrer Entropiedefinition) zum Codieren einer Nachricht benötigt wird, wenn Ihre Codierung unter Berücksichtigung der Wahrscheinlichkeitsverteilung der von Ihnen verwendeten Wörter optimal ist.
Wenn ich jedoch wie hier auf den kontinuierlichen Fall glaube ich, dass diese Denkweise zusammenbricht, da für eine kontinuierliche Wahrscheinlichkeitsverteilung (bitte korrigieren Sie mich, wenn das falsch ist), also ich Ich habe mich gefragt, ob es eine gute Möglichkeit gibt, darüber nachzudenken, was kontinuierliche Entropie genau wie im diskreten Fall bedeutet.p ( x )
quelle
Antworten:
Es gibt keine Interpretation der differentiellen Entropie, die so aussagekräftig oder nützlich wäre wie die der Entropie. Das Problem bei kontinuierlichen Zufallsvariablen besteht darin, dass ihre Werte typischerweise eine Wahrscheinlichkeit von 0 haben und daher eine unendliche Anzahl von Bits zum Codieren erfordern würden.
Wenn Sie die Grenze der diskreten Entropie durch Messung der Wahrscheinlichkeit von Intervallen , erhalten Sie[nε,(n+1)ε[
und nicht die Differentialentropie. Diese Größe ist in gewisser Weise aussagekräftiger, wird jedoch mit immer kürzeren Intervallen bis ins Unendliche variieren. Es ist sinnvoll, da wir immer mehr Bits benötigen, um zu codieren, in welches der vielen Intervalle der Wert unseres Zufallswerts fällt.
Eine nützlichere Größe für kontinuierliche Verteilungen ist die relative Entropie (auch Kullback-Leibler-Divergenz). Für diskrete Verteilungen:
Es misst die Anzahl der zusätzlichen Bits, die verwendet werden, wenn die wahre Verteilung , aber wir verwenden Bits, um zu codieren . Wir können die Grenze der relativen Entropie nehmen und ankommenP −logQ2(x) x
weil wird. Bei kontinuierlichen Verteilungen entspricht dies der Anzahl der zusätzlichen Bits, die bei unendlich kleinen Bins verwendet werden. Dies ist sowohl für kontinuierliche als auch für diskrete Verteilungen immer nicht negativ.log2ε
Nun, wir könnten von differentiellen Entropie denken als die negative relative Entropie zwischen und einer nicht - normierte Dichte ,p(x) λ(x)=1
Ihre Interpretation wäre der Unterschied in der Anzahl der Bits, die erforderlich sind, wenn stattdessen Bits zum Codieren des ten Intervalls verwendet werden von Bits. Obwohl ersteres optimal wäre, kann dieser Unterschied jetzt negativ sein, da schummelt (indem es nicht auf 1 integriert) und daher im Durchschnitt weniger Bits als theoretisch möglich zuweist.−log2∫(n+1)εnεp(x)dx n −logε λ
Siehe Sergio Verdus Vortrag für eine großartige Einführung in die relative Entropie.
quelle