Differenzielle Entropie

13

Die Differentialentropie des Gaußschen RV beträgt log2(σ2πe). Dies ist abhängig vonσ, der Standardabweichung.

Wenn wir die Zufallsvariable so normalisieren, dass sie eine Einheitsvarianz aufweist, fällt ihre Differentialentropie ab. Für mich ist dies kontraintuitiv, da die Komplexität der Kolmogorov-Normalisierungskonstante im Vergleich zur Verringerung der Entropie sehr gering sein sollte. Man kann einfach einen Kodierer-Dekodierer entwerfen, der mit der Normalisierungskonstante dividiert / multipliziert, um jeden durch diese Zufallsvariable erzeugten Datensatz wiederzugewinnen.

Wahrscheinlich habe ich kein Verständnis dafür. Könnten Sie bitte auf meinen Fehler hinweisen?

Cagdas Ozgenc
quelle

Antworten:

17

Ich werde es versuchen, obwohl es etwas über meinem Kopf liegt, also gib mir ein wenig Salz ...

Du liegst nicht genau falsch. Ich denke, dass Ihr Gedankenexperiment darin besteht, dass die differentielle Entropie nicht der begrenzende Fall der Entropie ist. Ich vermute, dass dadurch die Parallelen zwischen ihm und der Komplexität von Kolmogorov verloren gehen.

Lassen Sie uns sagen , dass wir eine diskrete Zufallsvariable haben . Wir können seine Shannon-Entropie wie folgt berechnen, indem wir alle möglichen Werte x i , H ( X ) = - i P ( X = x i ) log ( P (Xxi

H(X)=-ichP(X=xich)Log(P(X=xich)).

So weit so langweilig. Nehmen wir nun an, dass eine quantisierte Version einer kontinuierlichen Zufallsvariablen ist - wir haben beispielsweise die Dichtefunktion p ( ) , die Samples aus der Menge reeller Zahlen generiert, und wir machen daraus ein Histogramm. Wir werden ein ausreichend feines Histogramm haben, dass die Dichtefunktion im Wesentlichen linear ist. In diesem Fall haben wir so etwas wie eine Entropie: H ( X ) - i p ( X = x i ) δ x log ( p ( X = x i ) δ xXp() wobeiδxdie Breite unserer Histogrammkästen und ist

H(X)-ichp(X=xich)δxLog(p(X=xich)δx),
δx der Mittelpunkt von jedem ist. Wir haben ein Produkt in diesem Logarithmus - lassen Sie uns das heraustrennen und die Eigenschaft von Wahrscheinlichkeitsverteilungen, die auf 1 summieren, verwenden, um es außerhalb der Summierung zu verschieben, was uns H ( X ) - log ( δ x ) - i p ( X = x i ) δ x log ( p ( X = x i ) ) .xich
H(X)-Log(δx)-ichp(X=xich)δxLog(p(X=xich)).

δxdx

H(X)=-Log(dx)-xp(X=x)Log(p(X=x))dx.

Log(dx)

σ

δ

xp(X=x)Log(p(X=x)q(X=x))dx
q(X)Xp(X)q(X)
Klopfen
quelle
Vielen Dank. Das ist sehr interessant. Ich wusste nicht, dass die Theorie so ein Gimmick enthält.
Cagdas Ozgenc
1
Log(dx)p(x)-ichp(xich)δxLogp(xich)h(X)δx0nh(X)+n
1
Log(dx)
@Cagdas - Ich weiß nicht, ob ich es ein Gimmick nennen würde. Es misst nur eine andere Sache. Und wie Kardinal betont, hat es einige Verwendungen. Ob es beim Anwenden auf die Binominalverteilung kaputt geht, hängt davon ab, wie Sie es anwenden werden :). Wahrscheinlich lohnt es sich, ein neues Thema zu beginnen, wenn Sie sich nicht sicher sind.
Pat
Ich dachte, Entropie unterscheidet sich offensichtlich von Kolmogorovs Komplexität, wenn man Pseudozufallszahlengeneratoren betrachtet.
James Bowery