Warum wird die Entropie maximiert, wenn die Wahrscheinlichkeitsverteilung gleichmäßig ist?

32

Ich weiß, dass Entropie das Maß für die Zufälligkeit eines Prozesses / einer Variablen ist und wie folgt definiert werden kann. für eine Zufallsvariable Menge : - . In dem Buch über Entropie und Informationstheorie von MacKay gibt er diese Aussage in Kapitel 2 wieder $X \in$ $A$ $H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i))$

Die Entropie ist maximiert, wenn p einheitlich ist.

Intuitiv kann ich verstehen, dass wenn alle Datenpunkte in Satz mit der gleichen Wahrscheinlichkeit ( ist die Kardinalität von Satz ) ausgewählt werden, die Zufälligkeit oder die Entropie zunimmt. Wenn wir jedoch wissen, dass einige Punkte in Menge mit größerer Wahrscheinlichkeit auftreten werden als andere (z. B. im Fall der Normalverteilung, bei der die maximale Konzentration von Datenpunkten im Bereich der mittleren und kleinen Standardabweichung liegt), dann die Zufälligkeit oder die Entropie sollte abnehmen. $A$ $1/m$ $m$ $A$ $A$

Aber gibt es dafür einen mathematischen Beweis? Wie die Gleichung für unterscheide ich es in Bezug auf und setze es auf 0 oder so ähnlich. $H(X)$ $p(x)$

Gibt es einen Zusammenhang zwischen der Entropie der Informationstheorie und den Entropieberechnungen in der Chemie (Thermodynamik)?

uniform entropy maximum-entropy user76170
quelle

2

Diese Frage wird ( beiläufig ) unter stats.stackexchange.com/a/49174/919 beantwortet .

Whuber

Ich bin ziemlich verwirrt mit einer anderen Aussage in Christopher Bishops Buch, die besagt, dass "für eine einzige reale Variable die Verteilung, die die Entropie maximiert, der Gaußsche ist". Es heißt auch, dass "eine multivariate Verteilung mit maximaler Entropie für eine gegebene Kovarianz ein Gaußscher ist". Wie ist diese Aussage gültig? Ist die Entropie der Gleichverteilung nicht immer das Maximum?

user76170

6

Die Maximierung erfolgt immer unter Einschränkungen der möglichen Lösung. Wenn die Einschränkungen lauten, dass alle Wahrscheinlichkeiten über vordefinierte Grenzen hinaus verschwinden müssen, ist die maximale Entropielösung einheitlich. Wenn stattdessen die Bedingung besteht, dass Erwartung und Varianz vordefinierten Werten entsprechen müssen, ist die ME-Lösung Gaußsch. Die Aussagen, die Sie zitieren, müssen in bestimmten Kontexten gemacht worden sein, in denen diese Einschränkungen angegeben oder zumindest implizit verstanden wurden.

Whuber

2

Ich sollte wahrscheinlich auch erwähnen, dass das Wort "Entropie" in der Gaußschen Umgebung etwas anderes bedeutet als in der ursprünglichen Frage, denn dann diskutieren wir die Entropie kontinuierlicher Verteilungen. Diese "Differentialentropie" ist ein anderes Tier als die Entropie diskreter Verteilungen. Der Hauptunterschied besteht darin, dass die Differentialentropie bei einer Änderung von Variablen nicht invariant ist.

whuber

Was bedeutet also, dass die Maximierung immer mit Einschränkungen verbunden ist? Was ist, wenn es keine Einschränkungen gibt? Ich meine, kann es so eine Frage nicht geben? Welche Wahrscheinlichkeitsverteilung hat die maximale Entropie?

user76170

25

Heuristisch ist die Wahrscheinlichkeitsdichtefunktion für mit maximaler Entropie diejenige, die dem geringsten Wissensstand von , also die Gleichverteilung. $\{x_1, x_2,..,.x_n\}$ $\{x_1, x_2,..,.x_n\}$

Betrachten Sie nun für einen formelleren Beweis Folgendes:

Eine Wahrscheinlichkeitsdichtefunktion für ist eine Menge nichtnegativer reeller Zahlen , die sich zu 1 addieren. Die Entropie ist eine stetige Funktion der Tupel , und diese Punkte liegen in einer kompakten Teilmenge von , so dass es ein Tupel gibt, in dem die Entropie maximiert ist. Wir wollen zeigen, dass dies bei und nirgendwo anders vorkommt. $\{x_1, x_2,..,.x_n\}$ $p_1,...,p_n$ $n$ $(p_1,...,p_n)$ $\mathbb{R}^n$ $n$ $(1/n,...,1/n)$

Angenommen, die sind nicht alle gleich, sagen wir . (Offensichtlich ) Wir werden eine neue Wahrscheinlichkeitsdichte mit höherer Entropie finden. Da die Entropie bei einem Tupel maximiert ist, folgt daraus, dass die Entropie bei dem Tupel mit für alle eindeutig maximiert ist . $p_j$ $p_1 < p_2$ $n\neq 1$ $n$ $n$ $p_i = 1/n$ $i$

Da , haben wir für kleines positives . Die Entropie von minus der Entropie von gleich $p_1 < p_2$ $\varepsilon$ $p_1 + \varepsilon < p_2 -\varepsilon$ $\{p_1 + \varepsilon, p_2 -\varepsilon,p_3,...,p_n\}$ $\{p_1,p_2,p_3,...,p_n\}$

- p_{1} \log (\frac{p_{1} + ε}{p_{1}}) - ε \log (p_{1} + ε) - p_{2} \log (\frac{p_{2} - ε}{p_{2}}) + ε \log (p_{2} - ε)

$-p_1\log\left(\frac{p_1+\varepsilon}{p_1}\right)-\varepsilon\log(p_1+\varepsilon)-p_2\log\left(\frac{p_2-\varepsilon}{p_2}\right)+\varepsilon\log(p_2-\varepsilon)$ Um den Beweis zu vervollständigen, wollen wir zeigen, dass dies für klein genug positiv ist . Schreiben Sie die obige Gleichung um als

ε

$\varepsilon$

- p_{1} \log (1 + \frac{ε}{p_{1}}) - ε (\log p_{1} + \log (1 + \frac{ε}{p_{1}})) - p_{2} \log (1 - \frac{ε}{p_{2}}) + ε (\log p_{2} + \log (1 - \frac{ε}{p_{2}}))

$-p_1\log\left(1+\frac{\varepsilon}{p_1}\right)-\varepsilon\left(\log p_1+\log\left(1+\frac{\varepsilon}{p_1}\right)\right)-p_2\log\left(1-\frac{\varepsilon}{p_2}\right)+\varepsilon\left(\log p_2+\log\left(1-\frac{\varepsilon}{p_2}\right)\right)$

Unter Hinweis darauf, dass für kleines , lautet die obige Gleichung was positiv ist, wenn klein genug ist, da . $\log(1 + x) = x + O(x^2)$ $x$

- ε - ε \log p_{1} + ε + ε \log p_{2} + O (ε^{2}) = ε \log (p_{2} / p_{1}) + O (ε^{2})

$-\varepsilon-\varepsilon\log p_1 + \varepsilon + \varepsilon \log p_2 + O(\varepsilon^2) = \varepsilon\log(p_2/p_1) + O(\varepsilon^2)$

ε

$\varepsilon$

p_{1} < p_{2}

$p_1 < p_2$

Ein weniger strenger Beweis ist der folgende:

Betrachten Sie zuerst das folgende Lemma:

Lassen und sein , kontinuierliche Wahrscheinlichkeitsdichtefunktionen auf einem Intervall in den reellen Zahlen, mit und auf . Wir haben wenn beide Integrale existieren. Darüber hinaus gibt es genau dann eine Gleichheit, wenn für alle . $p(x)$ $q(x)$ $I$ $p\geq 0$ $q > 0$ $I$

- \int_{I} p \log p d x \leq - \int_{I} p \log q d x

$-\int_I p\log p dx\leq -\int_I p\log q dx$

p (x) = q (x)

$p(x) = q(x)$

x

$x$

Sei nun eine Wahrscheinlichkeitsdichtefunktion für mit . Vermietung für alle , das ist die Entropie . Deshalb sagt unser Lemma , und zwar genau dann, wenn einheitlich ist. $p$ $\{x_1,...,x_n\}$ $p_i = p(x_i)$ $q_i = 1/n$ $i$

- \sum_{i = 1}^{n} p_{i} \log q_{i} = \sum_{i = 1}^{n} p_{i} \log n = \log n

$-\sum_{i=1}^n p_i\log q_i = \sum_{i=1}^n p_i \log n=\log n$

q

$q$

h (p) \leq h (q)

$h(p)\leq h(q)$

p

$p$

Auch dazu gibt es in Wikipedia eine kurze Diskussion: Wiki

mitchus
quelle

11

Ich bewundere die Bemühungen, einen elementaren (Kalkül-freien) Beweis vorzulegen. Eine strenge einzeilige Demonstration ist über die gewichtete AM-GM-Ungleichung verfügbar, indem festgestellt wird, dass = mit Gleichheit, wenn alle gleich sind, QED.

\exp (H)

$\exp(H)$

\prod {(\frac{1}{p_{i}})}^{p_{i}} \leq \sum p_{i} \frac{1}{p_{i}} = n

$\prod\left(\frac{1}{p_i}\right)^{p_i}\le\sum p_i\frac{1}{p_i}=n$

1 / p_{i}

$1/p_i$

Whuber

Ich verstehe nicht, wie gleich .

\sum \log n

$\sum{\log{n}}$

\log n

$\log{n}$

user1603472

4

@ user1603472 meinst du ? Es ist, weil

\sum_{i = 1}^{n} p_{i} \log n = \log n

$\sum\limits_{i=1}^n p_i \log n = \log n$

\sum_{i = 1}^{n} p_{i} \log n = \log n \sum_{i = 1}^{n} p_{i} = \log n \times 1

$\sum\limits_{i=1}^n p_i \log n = \log n \sum\limits_{i=1}^n p_i = \log n \times 1$

HBeel

@ Roland Ich habe das außerhalb der Summe gezogen, da es nicht von abhängt . Dann ist die Summe gleich weil die Dichten einer Wahrscheinlichkeitsmassenfunktion sind.

\log n

$\log n$

i

$i$

1

$1$

p_{1}, \dots, p_{n}

$p_1,\ldots,p_n$

HBeel

Dieselbe

Roland

14

Entropie in der Physik und Informationstheorie sind nicht ohne Bezug. Sie unterscheiden sich mehr als der Name vermuten lässt, aber es gibt eindeutig eine Verbindung zwischen. Der Zweck der Entropiemetrik besteht darin, die Informationsmenge zu messen. Siehe meine Antwort mit Grafiken hier, um zu zeigen, wie sich die Entropie von einer gleichmäßigen zu einer buckligen Verteilung ändert.

Der Grund, warum die Entropie für eine gleichmäßige Verteilung maximiert wird, liegt darin, dass sie so entworfen wurde! Ja, wir konstruieren eine Kennzahl für den Informationsmangel, sodass wir der am wenigsten informativen Verteilung den höchsten Wert zuweisen möchten.

Beispiel. Ich fragte dich " Alter, wo ist mein Auto ?" Ihre Antwort lautet: "Es liegt irgendwo in den USA zwischen Atlantik und Pazifik." Dies ist ein Beispiel für die Gleichverteilung. Mein Auto könnte überall in den USA sein. Ich habe von dieser Antwort nicht viele Informationen erhalten.

Wenn Sie mir jedoch sagten: "Ich habe Ihr Auto vor einer Stunde auf der Route 66 gesehen, die von Washington, DC, abfährt", handelt es sich nicht mehr um eine einheitliche Verteilung. Es ist wahrscheinlicher, dass sich das Auto in einer Entfernung von 100 Kilometern von DC befindet, als irgendwo in der Nähe von Los Angeles. Hier gibt es deutlich mehr Informationen.

Daher muss unser Maß eine hohe Entropie für die erste und eine niedrigere für die zweite Antwort haben. Die Uniform muss die am wenigsten informative Verteilung sein, es ist im Grunde "Ich habe keine Ahnung" Antwort.

Aksakal
quelle

7

Das mathematische Argument basiert auf Jensens Ungleichung für konkave Funktionen. Das heißt, wenn eine konkave Funktion für und Punkte in , dann gilt: $f(x)$ $[a,b]$ $y_1, \ldots y_n$ $[a,b]$ $n \cdot f(\frac{y_1 + \ldots y_n}{n}) \geq f(y_1) + \ldots + f(y_n)$

Wenden Sie dies für die konkave Funktion und Jensen-Ungleichung für und Sie haben den Beweis. Beachten Sie, dass eine diskrete Wahrscheinlichkeitsverteilung definiert, deren Summe also 1 ist. Sie erhalten , mit Gleichheit für die Gleichverteilung. $f(x) = -x \log(x)$ $y_i = p(x_i)$ $p(x_i)$ $log(n) \geq \sum_{i=1}^n - p(x_i) log(p(x_i))$

Octavian Ganea
quelle

1

Ich finde tatsächlich, dass der Ungleichheitsbeweis von Jensen konzeptionell ein viel tieferer Beweis ist als der von AM-GM.

Casebash

4

Gibt es einen Zusammenhang zwischen der Entropie der Informationstheorie und den Entropieberechnungen in der Chemie (Thermodynamik)?

Ja da ist! Sie können die Arbeit von Jaynes und vielen anderen nach seiner Arbeit sehen (wie hier und hier zum Beispiel).

Die Grundidee ist jedoch, dass die statistische Mechanik (und auch andere Bereiche der Wissenschaft) als die Folgerung angesehen werden kann, die wir über die Welt ziehen .

Als weitere Lektüre empfehle ich das Buch von Ariel Caticha zu diesem Thema.

kaslusimoes
quelle

1

Eine intuitive Erklärung:

Wenn wir mehr Wahrscheinlichkeitsmasse in ein Ereignis einer Zufallsvariablen setzen, müssen wir einige von anderen Ereignissen wegnehmen. Der eine hat weniger Informationsgehalt und mehr Gewicht, der andere mehr Informationsgehalt und weniger Gewicht. Daher sinkt die Entropie, die dem erwarteten Informationsgehalt entspricht, da das Ereignis mit dem niedrigeren Informationsgehalt stärker gewichtet wird.

Stellen Sie sich im Extremfall vor, dass ein Ereignis mit einer Wahrscheinlichkeit von fast einem Ereignis auftritt. Daher haben die anderen Ereignisse eine kombinierte Wahrscheinlichkeit von fast Null und die Entropie ist sehr gering.

Roland
quelle

0

Hauptidee: Nimm eine partielle Ableitung von jedem , setze sie alle auf Null, löse das System der linearen Gleichungen. $p_i$

Nehmen Sie als Beispiel eine endliche Zahl von mit . Bezeichne . $p_i$ $i=1,...,n$ $q = 1-\sum_{i=0}^{n-1} p_i$

\begin{aligned} H & = - \sum_{i = 0}^{n - 1} p_{i} \log p_{i} - (1 - q) \log q \\ H * \ln 2 & = - \sum_{i = 0}^{n - 1} p_{i} \ln p_{i} - (1 - q) \ln q \end{aligned}

$\begin{align} H &= -\sum_{i=0}^{n-1} p_i \log p_i - (1-q)\log q\\ H*\ln 2 &= -\sum_{i=0}^{n-1} p_i \ln p_i - (1-q)\ln q \end{align}$

\begin{aligned} \frac{\partial H}{\partial p_{i}} & = \ln \frac{q}{p_{i}} = 0 \end{aligned}

$\begin{align} \frac{\partial H}{\partial p_i} &= \ln \frac{q}{p_i} = 0 \end{align}$ Dann für jedes , dh .

q = p_{i}

$q = p_i$

i

$i$

p_{1} = p_{2} = . . . = p_{n}

$p_1=p_2=...=p_n$

Jan Fan
quelle

Ich bin froh, dass Sie darauf hingewiesen haben, dass dies die "Hauptidee" ist, da dies nur ein Teil der Analyse ist. Der andere Teil - der möglicherweise nicht intuitiv und tatsächlich etwas komplizierter ist - besteht darin, zu überprüfen, ob es sich um ein globales Minimum handelt, indem das Verhalten der Entropie untersucht wird, wenn eines oder mehrere der auf Null schrumpfen.

p_{i}

$p_i$

whuber

Warum wird die Entropie maximiert, wenn die Wahrscheinlichkeitsverteilung gleichmäßig ist?

Antworten: