Ich weiß, dass Entropie das Maß für die Zufälligkeit eines Prozesses / einer Variablen ist und wie folgt definiert werden kann. für eine Zufallsvariable Menge : - . In dem Buch über Entropie und Informationstheorie von MacKay gibt er diese Aussage in Kapitel 2 wieder
Die Entropie ist maximiert, wenn p einheitlich ist.
Intuitiv kann ich verstehen, dass wenn alle Datenpunkte in Satz mit der gleichen Wahrscheinlichkeit ( ist die Kardinalität von Satz ) ausgewählt werden, die Zufälligkeit oder die Entropie zunimmt. Wenn wir jedoch wissen, dass einige Punkte in Menge mit größerer Wahrscheinlichkeit auftreten werden als andere (z. B. im Fall der Normalverteilung, bei der die maximale Konzentration von Datenpunkten im Bereich der mittleren und kleinen Standardabweichung liegt), dann die Zufälligkeit oder die Entropie sollte abnehmen.
Aber gibt es dafür einen mathematischen Beweis? Wie die Gleichung für unterscheide ich es in Bezug auf und setze es auf 0 oder so ähnlich.
Gibt es einen Zusammenhang zwischen der Entropie der Informationstheorie und den Entropieberechnungen in der Chemie (Thermodynamik)?
quelle
Antworten:
Heuristisch ist die Wahrscheinlichkeitsdichtefunktion für mit maximaler Entropie diejenige, die dem geringsten Wissensstand von , also die Gleichverteilung.{x1,x2,..,.xn} {x1,x2,..,.xn}
Betrachten Sie nun für einen formelleren Beweis Folgendes:
Eine Wahrscheinlichkeitsdichtefunktion für ist eine Menge nichtnegativer reeller Zahlen , die sich zu 1 addieren. Die Entropie ist eine stetige Funktion der Tupel , und diese Punkte liegen in einer kompakten Teilmenge von , so dass es ein Tupel gibt, in dem die Entropie maximiert ist. Wir wollen zeigen, dass dies bei und nirgendwo anders vorkommt.{x1,x2,..,.xn} p1,...,pn n (p1,...,pn) Rn n (1/n,...,1/n)
Angenommen, die sind nicht alle gleich, sagen wir . (Offensichtlich ) Wir werden eine neue Wahrscheinlichkeitsdichte mit höherer Entropie finden. Da die Entropie bei einem Tupel maximiert ist, folgt daraus, dass die Entropie bei dem Tupel mit für alle eindeutig maximiert ist .pj p1<p2 n≠1 n n pi=1/n i
Da , haben wir für kleines positives . Die Entropie von minus der Entropie von gleichp1<p2 ε p1+ε<p2−ε {p1+ε,p2−ε,p3,...,pn} {p1,p2,p3,...,pn}
Unter Hinweis darauf, dass für kleines , lautet die obige Gleichung was positiv ist, wenn klein genug ist, da .log(1+x)=x+O(x2) x
Ein weniger strenger Beweis ist der folgende:
Betrachten Sie zuerst das folgende Lemma:
Lassen und sein , kontinuierliche Wahrscheinlichkeitsdichtefunktionen auf einem Intervall in den reellen Zahlen, mit und auf . Wir haben wenn beide Integrale existieren. Darüber hinaus gibt es genau dann eine Gleichheit, wenn für alle .p(x) q(x) I p≥0 q>0 I
Sei nun eine Wahrscheinlichkeitsdichtefunktion für mit . Vermietung für alle , das ist die Entropie . Deshalb sagt unser Lemma , und zwar genau dann, wenn einheitlich ist.p {x1,...,xn} pi=p(xi) qi=1/n i
Auch dazu gibt es in Wikipedia eine kurze Diskussion: Wiki
quelle
Entropie in der Physik und Informationstheorie sind nicht ohne Bezug. Sie unterscheiden sich mehr als der Name vermuten lässt, aber es gibt eindeutig eine Verbindung zwischen. Der Zweck der Entropiemetrik besteht darin, die Informationsmenge zu messen. Siehe meine Antwort mit Grafiken hier, um zu zeigen, wie sich die Entropie von einer gleichmäßigen zu einer buckligen Verteilung ändert.
Der Grund, warum die Entropie für eine gleichmäßige Verteilung maximiert wird, liegt darin, dass sie so entworfen wurde! Ja, wir konstruieren eine Kennzahl für den Informationsmangel, sodass wir der am wenigsten informativen Verteilung den höchsten Wert zuweisen möchten.
Beispiel. Ich fragte dich " Alter, wo ist mein Auto ?" Ihre Antwort lautet: "Es liegt irgendwo in den USA zwischen Atlantik und Pazifik." Dies ist ein Beispiel für die Gleichverteilung. Mein Auto könnte überall in den USA sein. Ich habe von dieser Antwort nicht viele Informationen erhalten.
Wenn Sie mir jedoch sagten: "Ich habe Ihr Auto vor einer Stunde auf der Route 66 gesehen, die von Washington, DC, abfährt", handelt es sich nicht mehr um eine einheitliche Verteilung. Es ist wahrscheinlicher, dass sich das Auto in einer Entfernung von 100 Kilometern von DC befindet, als irgendwo in der Nähe von Los Angeles. Hier gibt es deutlich mehr Informationen.
Daher muss unser Maß eine hohe Entropie für die erste und eine niedrigere für die zweite Antwort haben. Die Uniform muss die am wenigsten informative Verteilung sein, es ist im Grunde "Ich habe keine Ahnung" Antwort.
quelle
Das mathematische Argument basiert auf Jensens Ungleichung für konkave Funktionen. Das heißt, wenn eine konkave Funktion für und Punkte in , dann gilt: [ a , b ] y 1 , … y n [ a , b ] n ⋅ f ( y 1 + … y nf(x) [a,b] y1,…yn [a,b] n⋅f(y1+…ynn)≥f(y1)+…+f(yn)
Wenden Sie dies für die konkave Funktion und Jensen-Ungleichung für und Sie haben den Beweis. Beachten Sie, dass eine diskrete Wahrscheinlichkeitsverteilung definiert, deren Summe also 1 ist. Sie erhalten , mit Gleichheit für die Gleichverteilung.f(x)=−xlog(x) yi=p(xi) p(xi) log(n)≥∑ni=1−p(xi)log(p(xi))
quelle
Ja da ist! Sie können die Arbeit von Jaynes und vielen anderen nach seiner Arbeit sehen (wie hier und hier zum Beispiel).
Die Grundidee ist jedoch, dass die statistische Mechanik (und auch andere Bereiche der Wissenschaft) als die Folgerung angesehen werden kann, die wir über die Welt ziehen .
Als weitere Lektüre empfehle ich das Buch von Ariel Caticha zu diesem Thema.
quelle
Eine intuitive Erklärung:
Wenn wir mehr Wahrscheinlichkeitsmasse in ein Ereignis einer Zufallsvariablen setzen, müssen wir einige von anderen Ereignissen wegnehmen. Der eine hat weniger Informationsgehalt und mehr Gewicht, der andere mehr Informationsgehalt und weniger Gewicht. Daher sinkt die Entropie, die dem erwarteten Informationsgehalt entspricht, da das Ereignis mit dem niedrigeren Informationsgehalt stärker gewichtet wird.
Stellen Sie sich im Extremfall vor, dass ein Ereignis mit einer Wahrscheinlichkeit von fast einem Ereignis auftritt. Daher haben die anderen Ereignisse eine kombinierte Wahrscheinlichkeit von fast Null und die Entropie ist sehr gering.
quelle
Hauptidee: Nimm eine partielle Ableitung von jedem , setze sie alle auf Null, löse das System der linearen Gleichungen.pi
Nehmen Sie als Beispiel eine endliche Zahl von mit . Bezeichne .pi i=1,...,n q=1−∑n−1i=0pi
quelle