Was sagt uns die Entropie?

Ich lese über Entropie und kann mir nur schwer vorstellen, was es im kontinuierlichen Fall bedeutet. Die Wiki-Seite besagt Folgendes:

Die Wahrscheinlichkeitsverteilung der Ereignisse bildet zusammen mit der Informationsmenge jedes Ereignisses eine Zufallsvariable, deren Erwartungswert die durchschnittliche Informationsmenge oder Entropie ist, die durch diese Verteilung erzeugt wird.

Wenn ich also die Entropie berechne, die mit einer stetigen Wahrscheinlichkeitsverteilung verbunden ist, was sagt mir das wirklich? Sie geben ein Beispiel für das Werfen von Münzen, also den diskreten Fall, aber wenn es einen intuitiven Weg gibt, dies durch ein Beispiel wie dieses im kontinuierlichen Fall zu erklären, wäre das großartig!

Wenn es hilft, lautet die Definition der Entropie für eine kontinuierliche Zufallsvariable wie folgt: $X$

H (X) = - \int P (x) {Log}_{b} P (x) d x

$H(X)=-\int P(x)\log_b P(x)dx$ wobei eine Wahrscheinlichkeitsverteilungsfunktion ist.

P (x)

$P(x)$

Um dies konkreter zu machen, betrachte man den Fall von $X\sim \text{Gamma}(\alpha,\beta)$ , dann ist laut Wikipedia die Entropie

\begin{aligned} H (X) & = E [- \ln (P (X))] \\ = E [- α \ln (β) + \ln (Γ (α)) + \ln (Γ (α)) - (α - 1) \ln (X) + β X] \\ = α - \ln (β) + \ln (Γ (α)) + (1 - α) (\frac{d}{d α} \ln (Γ (α))) \end{aligned}

$\begin{align} H(X)&=\mathbb{E}[-\ln(P(X))]\\ &=\mathbb{E}[-\alpha\ln(\beta)+\ln(\Gamma(\alpha))+\ln(\Gamma(\alpha))-(\alpha-1)\ln(X)+\beta X]\\ &=\alpha-\ln(\beta)+\ln(\Gamma(\alpha))+(1-\alpha)\left(\frac{d}{d\alpha}\ln(\Gamma(\alpha))\right) \end{align}$

Und jetzt haben wir die Entropie für eine stetige Verteilung (die Gamma-Verteilung) berechnet. Wenn ich also diesen Ausdruck bei und auswerte , was sagt mir diese Größe dann eigentlich? $H(X)$ $\alpha$ $\beta$

entropy RustyStatistician
quelle

(+1) Dieses Zitat bezieht sich auf eine wirklich unglückliche Stelle. Sie versucht mühsam und undurchsichtig die mathematische Definition von Entropie zu beschreiben und zu interpretieren. Diese Definition ist

. Es kann als die Erwartung von

wobei

das PDF einer Zufallsvariablen

. Es wird versucht,

zu charakterisieren

\int f (x) \log (f (x)) d x

$\int f(x)\log(f(x))dx$

\log (f (X))

$\log(f(X))$

f

$f$

X

$X$

\log (f (x))

$\log(f(x))$ als die "Informationsmenge", die der Zahl

x

$x$

whuber

Es lohnt sich zu fragen, da es ein heikles, aber wichtiges technisches Problem gibt: Die kontinuierliche Version der Entropie weist nicht die gleichen Eigenschaften auf wie die diskrete Version (die eine natürliche, intuitive Interpretation in Bezug auf Informationen aufweist). @ Tim AFAIK, dieser Thread über Mathematik behandelt nur den diskreten Fall.

whuber

@RustyStatistician

sagt Ihnen, wie überraschend das Ergebnis x war. Sie berechnen dann die erwartete Überraschung.

- \log (f (x))

$-\log\left(f\left(x\right)\right)$

Adrian

Re die technischen Problem @whuber Referenzen, dies kann von Interesse sein.

Sean Easter

Falls Sie in technischen Details interessieren: Entropy ist eine Basis aus einem Pseudo-Metrik der Kullback-Leibler - Divergenz genannt , die in ihrer jeweiligen messen Abstände zwischen den Ereignissen zu beschreiben, siehe verwendet werden projecteuclid.org/euclid.aoms/1177729694 für das Original ( und bahnbrechendes) Papier von Kullback und Leibler. Das Konzept taucht auch in Modellauswahlkriterien wie AIC und BIC wieder auf.

Jeremias K

Antworten:

Die Entropie zeigt Ihnen, wie viel Unsicherheit im System ist. Angenommen, Sie suchen eine Katze und wissen, dass sie sich zwischen Ihrem Haus und den Nachbarn befindet, die 1,6 km entfernt sind. Ihre Kinder sagen Ihnen, dass die Wahrscheinlichkeit, dass sich eine Katze auf der Strecke von Ihrem Haus befindet, am besten durch die Betaverteilung . So eine Katze wahrscheinlich in der Mitte, dh zwischen 0 und 1, aber könnte überall seine . $x$ $f(x;2,2)$ $x_{max}=1/2$

Fügen wir die Beta-Verteilung in Ihre Gleichung ein, dann erhalten Sie . $H=-0.125$

Als nächstes fragst du deine Frau und sie sagt dir, dass die beste Verteilung, um ihr Wissen über deine Katze zu beschreiben, die Gleichverteilung ist. Wenn Sie es mit Ihrer Entropiegleichung verbinden, erhalten Sie . $H=0$

Sowohl die Uniform- als auch die Betaverteilung lassen die Katze zwischen 0 und 1 Meilen von Ihrem Haus entfernt sein, aber es gibt mehr Unsicherheit in der Uniform, da Ihre Frau wirklich keine Ahnung hat, wo sich die Katze versteckt, während Kinder eine Ahnung haben , sie denken, dass es mehr ist wahrscheinlich irgendwo in der Mitte sein. Deshalb ist Betas Entropie niedriger als die von Uniform.

Sie könnten andere Distributionen versuchen, vielleicht Ihr Nachbar sagt , dass Sie die Katze mag in der Nähe von einem der Häuser sein, so dass seine Beta - Verteilung mit ist . Sein muss wieder niedriger sein als das der Uniform, weil Sie eine Vorstellung davon haben, wo Sie nach einer Katze suchen müssen. Erraten Sie, ob die Informationsentropie Ihres Nachbarn höher oder niedriger ist als die Ihrer Kinder? Ich würde in diesen Angelegenheiten jeden Tag auf Kinder wetten. $\alpha=\beta=1/2$ $H$

AKTUALISIEREN:

Wie funktioniert das? Eine Möglichkeit, dies zu sehen, besteht darin, mit einer einheitlichen Verteilung zu beginnen. Wenn Sie damit einverstanden sind, dass es das mit der größten Unsicherheit ist, dann denken Sie daran, es zu stören. Schauen wir uns der Einfachheit halber den diskreten Fall an. Nehmen von einem Punkt und fügen Sie es ein anderes wie folgt: $\Delta p$

p_{ich}^{'} = p - Δ p

$p_i'=p-\Delta p$

p_{j}^{'} = p + Δ p

$p_j'=p+\Delta p$

H - H^{'} = p_{ich} \ln p_{ich} - p_{ich} \ln (p_{ich} - Δ p) + p_{j} \ln p_{j} - p_{j} \ln (p_{j} + Δ p)

$H-H'=p_i\ln p_i-p_i\ln (p_i-\Delta p)+p_j\ln p_j-p_j\ln (p_j+\Delta p)$

= p \ln p - p \ln [p (1 - Δ p / p)] + p \ln p - p \ln [p (1 + Δ p / p)]

$=p\ln p-p\ln [p(1-\Delta p/p)]+p\ln p-p\ln [p(1+\Delta p/p)]$

= - \ln (1 - Δ p / p) - \ln (1 + Δ p / p) > 0

$=-\ln (1-\Delta p/p)-\ln (1+\Delta p/p)>0$

$n$ $n\to\infty$ $n$ $n=1$ $n=13$

x = 0:0.01:1;
for k=1:5
    i = 1 + (k-1)*3;
    idx(k) = i;
    f = @(x)bates_pdf(x,i);
    funb=@(x)f(x).*log(f(x));
    fun = @(x)arrayfun(funb,x);
    h(k) = -integral(fun,0,1);
    subplot(1,5+1,k)

    plot(x,arrayfun(f,x))
    title(['Bates(x,' num2str(i) ')'])
    ylim([0 6])
end

subplot(1,5+1,5+1)
plot(idx,h)
title 'Entropy'

Aksakal
quelle

(+1) Ich werde warten, bis ich andere Interpretationen sehe, aber ich mag diese wirklich. Es scheint also möglich zu sein, Entropie als Maß für die Sicherheit zu verwenden, die Sie benötigen, um sie mit anderen Distributionen zu vergleichen. Dh, die Nummer selbst sagt dir nicht viel?

RustyStatistician

@RustyStatistician, ich würde nicht sagen, dass sein absoluter Wert völlig bedeutungslos ist. Aber ja, er ist am nützlichsten, wenn er zum Vergleichen der Systemzustände verwendet wird. Der einfache Weg, die Entropie zu internalisieren, besteht darin, sie als Maß für die Unsicherheit zu betrachten

Aksakal,

Problem mit dieser Antwort ist, dass der Begriff "Unsicherheit" undefiniert bleibt.

kjetil b halvorsen

Der Begriff ist ungewiss

Aksakal

Das ist sehr nett.

Astrid

Ich möchte eine einfache Antwort auf diese Frage hinzufügen:

Was sagt mir diese Menge eigentlich?

Es ist intuitiv, dies in einem diskreten Szenario zu veranschaulichen. Angenommen, Sie werfen eine stark voreingenommene Münze und sagen, dass die Wahrscheinlichkeit, bei jedem Wurf einen Kopf zu sehen, 0,99 beträgt. Jeder tatsächliche Schlag sagt Ihnen sehr wenig Informationen, weil Sie fast schon wissen, dass es Kopf sein wird. Aber wenn es um eine gerechtere Münze geht, ist es nicht schwieriger für Sie, eine Vorstellung davon zu haben, was Sie zu erwarten haben. Bei jedem Umdrehen erhalten Sie mehr Informationen als bei jeder voreingenommeneren Münze. Die Informationsmenge, die durch Beobachtung eines einzelnen Wurfs erhalten wird, wird mit gleichgesetzt $\log \frac{1}{p(x)}$

$E \log \frac{1}{p(x)} = \sum p(x) \log \frac{1}{p(x)}$

Lerner Zhang
quelle