Bei der Definition gemeinsam typischer Mengen (in "Elemente der Informationstheorie", Kap. 7.6, S. 195) verwenden wir
np(xn)=Π n i = 1 p(xi)
als empirische Entropie einer Folge mit . Ich bin noch nie auf diese Terminologie gestoßen. Es ist nirgends explizit nach dem Inhaltsverzeichnis des Buches definiert.
Meine Frage ist im Grunde: Warum ist empirische Entropie nicht wobei die empirische Verteilung ist?p ( x )
Was sind die interessantesten Unterschiede und Gemeinsamkeiten zwischen diesen beiden Formeln? (In Bezug auf Eigenschaften, die sie teilen / nicht teilen).
information-theory
entropy
blubb
quelle
quelle
Antworten:
quelle
Die Entropie ist für Wahrscheinlichkeitsverteilungen definiert. Wenn Sie keine, sondern nur Daten haben und einen naiven Schätzer für die Wahrscheinlichkeitsverteilung einsetzen, erhalten Sie eine empirische Entropie. Dies ist am einfachsten für diskrete (multinomiale) Verteilungen, wie in einer anderen Antwort gezeigt, kann aber auch für andere Verteilungen durch Binning usw. durchgeführt werden.
Ein Problem bei der empirischen Entropie besteht darin, dass sie für kleine Proben voreingenommen ist. Die naive Schätzung der Wahrscheinlichkeitsverteilung zeigt eine zusätzliche Variation aufgrund des Abtastrauschens. Natürlich kann man einen besseren Schätzer verwenden, z. B. einen geeigneten Prior für die multinomialen Parameter, aber es ist nicht einfach, ihn wirklich unvoreingenommen zu erhalten.
Dies gilt auch für bedingte Ausschüttungen. Außerdem ist alles relativ zu Binning (oder Kernelisierung), sodass Sie tatsächlich eine Art differentielle Entropie haben.
quelle