Was ist empirische Entropie?

19

Bei der Definition gemeinsam typischer Mengen (in "Elemente der Informationstheorie", Kap. 7.6, S. 195) verwenden wir

np(xn)=Π n i = 1 p(xi)

-1nLogp(xn)
als empirische Entropie einer Folge mit . Ich bin noch nie auf diese Terminologie gestoßen. Es ist nirgends explizit nach dem Inhaltsverzeichnis des Buches definiert.np(xn)=ich=1np(xich)

Meine Frage ist im Grunde: Warum ist empirische Entropie nicht wobei die empirische Verteilung ist?p ( x )-xp^(x)Log(p^(x))p^(x)

Was sind die interessantesten Unterschiede und Gemeinsamkeiten zwischen diesen beiden Formeln? (In Bezug auf Eigenschaften, die sie teilen / nicht teilen).

blubb
quelle
Sind die beiden Ausdrücke nicht algebraisch gleich?
whuber
1
@whuber: Nein, das sind unterschiedliche Mengen mit unterschiedlichen Zwecken, glaube ich. Beachten Sie, dass die ersten Anwendungen der wahre Maß a priori bekannt vorausgesetzt. Der zweite nicht. p
Kardinal
3
Ersteres befasst sich mit der Akkumulation von Entropie über die Zeit und wie sie mit der wahren Entropie des Systems verglichen wird. Das SLLN und das CLT erzählen viel darüber, wie es sich verhält. Die zweite beschäftigt sich mit der Schätzung der Entropie aus Daten, und einige ihrer Eigenschaften können auch mit denselben beiden gerade erwähnten Werkzeugen erhalten werden. Aber während der erste unvoreingenommen ist, ist der zweite unter keinem . Ich kann einige Details eintragen, wenn es hilfreich wäre. p
Kardinal
1
@ Cardinal: Wenn Sie den obigen Kommentar als Antwort geben würden (vielleicht erklären Sie auch, was SLLN und CLT sind? - Ich kenne diese nicht), würde ich gerne zustimmen ...
blubb
Ok, ich werde versuchen, später mehr zu posten. In der Zwischenzeit gilt SLLN = "Starkes Gesetz großer Zahlen" und CLT = "Zentraler Grenzwertsatz". Dies sind ziemlich übliche Abkürzungen, auf die Sie wahrscheinlich noch einmal stoßen werden. Prost. :)
Kardinal

Antworten:

16

xn=x1xnnX fürxX. Hier istδx(xi)eins, wennxi=xund andernfalls null. Das heißt, p (x)ist die relative Häufigkeit vonxin der beobachteten Sequenz. DieEntropieder Wahrscheinlichkeitsverteilung durch die empirischen Punktwahrscheinlichkeiten gegeben ist H( p )=-Σ

p^(x)=1n|{ichxich=x}|=1nich=1nδx(xich)
xXδx(xich)xich=xp^(x)x
H(p^)=-xXp^(x)Logp^(x)=-xX1nich=1nδx(xich)Logp^(x)=-1nich=1nLogp^(xich).
xXδx(xich)Logp^(x)=Logp^(xich).
H(p^)=-1nLogp^(xn)
p^(xn)=ich=1np^(xich)-1nLogp(xn)p
NRH
quelle
3
(+1) Dies ist eine schöne Illustration dessen, was Cover und Thomas als den "seltsamen selbstreferenziellen Charakter" der Entropie bezeichnen. Ich bin mir jedoch nicht sicher, ob die Antwort tatsächlich (direkt) die offensichtlichen Bedenken des OP anspricht. :)
Kardinal
@ Cardinal, ich weiß, und die Antwort war nur ein langer Kommentar, um diesen besonderen Punkt zu machen. Ich wollte Ihre Punkte nicht wiederholen.
NRH
1
Sie sollten sich nicht schlecht fühlen oder zögern, Ihre eigene Antwort einschließlich der Erweiterung meiner oder anderer Kommentare zu posten. Ich bin besonders langsam und schlecht in Bezug auf das Posten von Antworten und werde mich niemals stören, wenn Sie oder andere Antworten posten, die Aspekte von Dingen enthalten, die ich zuvor kurz kommentiert habe. Ganz im Gegenteil. Prost.
Kardinal
7

Die Entropie ist für Wahrscheinlichkeitsverteilungen definiert. Wenn Sie keine, sondern nur Daten haben und einen naiven Schätzer für die Wahrscheinlichkeitsverteilung einsetzen, erhalten Sie eine empirische Entropie. Dies ist am einfachsten für diskrete (multinomiale) Verteilungen, wie in einer anderen Antwort gezeigt, kann aber auch für andere Verteilungen durch Binning usw. durchgeführt werden.

Ein Problem bei der empirischen Entropie besteht darin, dass sie für kleine Proben voreingenommen ist. Die naive Schätzung der Wahrscheinlichkeitsverteilung zeigt eine zusätzliche Variation aufgrund des Abtastrauschens. Natürlich kann man einen besseren Schätzer verwenden, z. B. einen geeigneten Prior für die multinomialen Parameter, aber es ist nicht einfach, ihn wirklich unvoreingenommen zu erhalten.

Dies gilt auch für bedingte Ausschüttungen. Außerdem ist alles relativ zu Binning (oder Kernelisierung), sodass Sie tatsächlich eine Art differentielle Entropie haben.

Scellus
quelle
3
Wir sollten vorsichtig sein mit dem, was wir hier als empirische Entropie bezeichnen . Beachten Sie, dass der Plug-in-Schätzer für alle Stichprobengrößen immer auf einen niedrigen Wert eingestellt ist, der jedoch mit zunehmender Stichprobengröße abnimmt. Es ist nicht nur schwierig , unvoreingenommene Schätzer für die Entropie zu erhalten, sondern im Allgemeinen auch unmöglich . In den letzten Jahren wurde auf diesem Gebiet ziemlich intensiv geforscht, insbesondere in der neurowissenschaftlichen Literatur. Tatsächlich gibt es viele negative Ergebnisse.
Kardinal