Shannons Entropie ist das Negativ der Summe der Wahrscheinlichkeiten jedes Ergebnisses multipliziert mit dem Logarithmus der Wahrscheinlichkeiten für jedes Ergebnis. Welchen Zweck erfüllt der Logarithmus in dieser Gleichung?
Eine intuitive oder visuelle Antwort (im Gegensatz zu einer zutiefst mathematischen Antwort) erhält Bonuspunkte!
entropy
intuition
sequence-analysis
Histelheim
quelle
quelle
Antworten:
Die Shannon-Entropie ist eine Größe, die eine Reihe von Beziehungen erfüllt.
Kurz gesagt, Logarithmus soll es linear mit der Systemgröße wachsen lassen und "sich wie Informationen verhalten".
Das erste Mittel , dass eine Münze von Entropie wirft mal mal Entropie eine Münze zu werfen:n n
Oder nur um zu sehen, wie es funktioniert, wenn zwei verschiedene Münzen geworfen werden (vielleicht unfair - mit Köpfen mit der Wahrscheinlichkeit und Schwänzen für die erste Münze und und für die zweite) also die Eigenschaften des Logarithmus (Logarithmus des Produkts ist Summe von Logarithmen) sind entscheidend.p1 p2 q1 q2 −∑i=12∑j=12piqjlog(piqj)=−∑i=12∑j=12piqj(log(pi)+log(qj))
=−∑i=12∑j=12piqjlog(pi)−∑i=12∑j=12piqjlog(qj)=−∑i=12pilog(pi)−∑j=12qjlog(qj)
Aber auch die Rényi-Entropie hat diese Eigenschaft (sie wird durch eine reelle Zahl parametrisiert , die für Shannon-Entropie ).α α→1
Hier kommt jedoch die zweite Eigenschaft - die Shannon-Entropie ist etwas Besonderes, da sie sich auf Informationen bezieht. Um ein intuitives Gefühl zu bekommen, können Sie als Durchschnitt von .H=∑ipilog(1pi) log(1/p)
Wir können Informationen aufrufen . Warum? Denn wenn alle Ereignisse mit der Wahrscheinlichkeit eintreten , bedeutet dies, dass es Ereignisse gibt. Um festzustellen, welches Ereignis aufgetreten ist, müssen wir -Bits verwenden (jedes Bit verdoppelt die Anzahl der Ereignisse, die wir unterscheiden können).log(1/p) p 1/p log(1/p)
Möglicherweise haben Sie Angst: "OK, wenn alle Ereignisse die gleiche Wahrscheinlichkeit haben, ist es sinnvoll, als Maß für die Information zu verwenden. Wenn dies nicht der Fall ist, warum ist es dann sinnvoll, Informationen zu mitteln?" - und es ist ein natürliches Anliegen.log(1/p)
Aber es stellt sich heraus, dass es sinnvoll ist - Shannons Satz der Quellcodierung besagt, dass eine Zeichenfolge mit nicht korrelierten Buchstaben mit Wahrscheinlichkeiten der Länge nicht (im Durchschnitt) auf eine Binärzeichenfolge komprimiert werden kann, die kürzer als . Tatsächlich können wir Huffman-Codierung verwenden , um die Zeichenfolge zu komprimieren und sehr nahe zu kommen .{pi}i n nH n HnH
Siehe auch:
quelle
Dies ist das Gleiche wie bei den anderen Antworten, aber ich denke, der beste Weg, dies zu erklären, ist zu sehen, was Shannon in seinem Originalartikel sagt.
Quelle: Shannon, Eine mathematische Theorie der Kommunikation (1948) [ pdf ].
Man beachte, dass die Shannon-Entropie mit der Gibbs-Entropie der statistischen Mechanik übereinstimmt und es auch eine Erklärung dafür gibt, warum das Log in Gibbs-Entropie auftritt. In der statistischen Mechanik soll Entropie ein Maß für die Anzahl möglicher Zustände in denen ein System gefunden werden kann. Der Grund, warum besser ist als liegt darin, dass normalerweise eine sehr schnell wachsende Funktion seiner Argumente ist und daher durch eine Taylor-Erweiterung nicht sinnvoll approximiert werden kann, während kann. (Ich weiß nicht, ob dies die ursprüngliche Motivation für die Aufnahme des Protokolls war, aber in vielen einführenden Physikbüchern wird dies so erklärt.)log Ω Ω Ω log ΩΩ logΩ Ω Ω logΩ
quelle
Eine andere Sichtweise ist aus algorithmischer Sicht. Stellen Sie sich vor, Sie erraten eine Zahl , und Sie haben nur die Information, dass diese Zahl im Intervall . In dieser Situation ist der optimale Algorithmus zum Erraten der Zahl ein einfacher binärer Suchalgorithmus, der in der Reihenfolge . Diese Formel sagt intuitiv aus, wie viele Fragen Sie stellen müssen, um herauszufinden, was . Wenn beispielsweise , müssen Sie maximal 3 Fragen stellen, um das unbekannte zu finden .1 ≤ x ≤ N × O ( log 2 N ) × N = 8 ×x 1≤x≤N x O(log2N) x N=8 x
Aus probabilistischer Sicht bedeutet für , wenn Sie erklären, dass mit gleicher Wahrscheinlichkeit Werte im Bereich sind . Claude Shannon hat deutlich gemacht, dass der Informationsgehalt eines Ergebnisses definiert ist als:1 ≤ x ≤ N p ( x ) = 1 / N 1 ≤ x ≤ N xx 1≤x≤N p(x)=1/N 1≤x≤N x
Der Grund für die Basis 2 im Logarithmus ist, dass wir hier die Informationen in Bits messen . Sie können auch einen natürlichen Logarithmus annehmen, der Ihre Informationen in Nats misst . Als ein Beispiel kann der Informationsgehalt von OUTCOM ist . Dieser Wert entspricht genau der Anzahl der Schritte im binären Suchalgorithmus (oder der Anzahl der IF-Anweisungen im Algorithmus). Daher ist die Anzahl der Fragen, die Sie benötigen, um herauszufinden, gleich , genau der Informationsgehalt des Ergebnisses .x=4 h(4)=3 x 4 x=4
Wir können auch die Leistung des binären Suchalgorithmus auf mögliche Ergebnisse analysieren. Eine Möglichkeit, dies zu tun, besteht darin, herauszufinden, wie viele Fragen für die Werte von erwarten sind . Beachten Sie, dass die Anzahl der erforderlichen Fragen, um einen Wert von zu erraten , wie oben beschrieben, . Daher ist die erwartete Anzahl von Fragen für jedes per Definition gleich:x x h(x) x
quelle
Hier ist eine kurze Erklärung. Man könnte sagen, dass zwei Bücher der gleichen Größe doppelt so viele Informationen enthalten wie ein Buch, oder? (Betrachtet man ein Buch als eine Folge von Bits.) Nun, wenn ein bestimmtes Ergebnis die Wahrscheinlichkeit P hat, dann könnte man sagen, sein Informationsgehalt ist ungefähr die Anzahl der Bits, die Sie 1 / P ausschreiben müssen. (ZB wenn P = 1/256, das sind 8 Bits.) Die Entropie ist nur der Durchschnitt dieser Informationsbitlänge über alle Ergebnisse.
quelle
Shannon lieferte einen mathematischen Beweis für dieses Ergebnis, der gründlich aufgegriffen und weithin akzeptiert wurde. Der Zweck und die Bedeutung des Logarithmus in der Entropiegleichung sind daher in den Annahmen und Beweisen enthalten.
Das macht es nicht einfach zu verstehen, aber es ist letztendlich der Grund, warum der Logarithmus erscheint.
Ich habe festgestellt, dass die folgenden Verweise zusätzlich zu den an anderer Stelle aufgeführten nützlich sind:
quelle
Zusammenfassung:
Beispiel:
Lass uns das machen:
Simulation:
Ergebnisse:
Was ist los mit dir? Es ist fast in der Nähe, aber nicht wirklich in der Nähe, wie ich gehofft hatte. Ist es Pythons PRNG, der versucht, einen langsamen Witz zu sagen? Oder liegt Shannon falsch? Oder ist es - Gott verbiete - mein Verständnis ist falsch? So oder so HILFE. SOS schon Alter.
quelle
quelle
Diese Frage wurde vor zwei Jahren gestellt und es gab bereits viele tolle Antworten, aber ich möchte meine hinzufügen, die mir sehr geholfen hat.
Die Frage ist
Der Logarithmus (normalerweise basiert er auf 2) beruht auf der Kraft-Ungleichung .
Eine intuitive Illustration und eine visuelle Antwort (je nach Bedarf, aber spezifischer für die Kraft-Ungleichung) werden in diesem Papier- Codebaum und in Krafts Ungleichung artikuliert .
quelle
Ausgehend von Ihrer Nichtannahme von bereits gegebenen Antworten glaube ich, dass Sie nach dem Grund suchen, warum Shannon in seiner Formel überhaupt den Logarithmus verwendet hat. Mit anderen Worten, die Philosophie davon.
Haftungsausschluss : Ich bin nur für eine Woche in diesem Bereich und komme hierher, weil ich die Frage wie Sie habe . Wenn Sie mehr darüber wissen, lassen Sie es mich bitte wissen.
Ich habe diese Frage, nachdem ich einen der wichtigsten Artikel von Ulanowicz gelesen habe : Zunehmende Entropie: Hitzetod oder ewige Harmonien? . In diesem Abschnitt wird erklärt, warum die Formel -log (p) anstelle von (1-p) enthält:
Es sieht so aus, als hätte Shannon den Logarithmus ohne Grund gewählt. Er "roch" nur, dass er Logarithmus verwenden sollte. Warum hat Newton in seiner Formel F = m * a eine Multiplikationsoperation gewählt?
Beachten Sie, dass er zu diesem Zeitpunkt keine Ahnung von Entropie hatte :
Meine Antwort lautet also: Es gibt keinen Grund dafür. Er entschied sich dafür, weil es einfach magisch funktionierte.
quelle
Entropie ist definiert als der Logarithmus des geometrischen Mittels des Multinomialkoeffizienten, der die Anzahl der Zustände angibt, in denen sich ein System befinden kann:
Die Logarithmen erscheinen in der Formel nach Stirlings Approximation der Fakultät (siehe diese Erklärung ).
quelle
Das Protokoll stammt aus der Herleitung einer Funktion H, die bestimmte natürliche Anforderungen erfüllt. Siehe Seite 3 Sek. 2 dieser Quelle:
http://www.lptl.jussieu.fr/user/lesne/MSCS-entropy.pdf
Wenn Sie unter Berücksichtigung der Axiome die Optimierung durchführen, erhalten Sie eine eindeutige Funktion (bis zu Konstanten), in die Sie sich einloggen.
Alle obigen Antworten sind korrekt, mit der Ausnahme, dass sie das Protokoll interpretieren, aber die Quelle nicht erläutern.
quelle
Ich denke, Ihre Frage bezieht sich eher auf die "Bedeutung" dieses Logarithmus und darauf, warum jede Komponente zur Gesamtbedeutung der Formel beiträgt, als auf den bloßen Formalismus, der die Kohärenz der Definition mit bestimmten Anforderungen zeigt.
Die Idee der Shannon-Entropie besteht darin, die Informationen einer Nachricht anhand ihrer FREQUENZ (dh ) und ihrer GENERALITÄT (dh ) zu :p(x) −log(p(x))
Der erste Term handelt von der Häufigkeit, der von seiner Allgemeinheit.p(x) −log(p(x))
Von nun an werde ich diskutieren, wie sich die GENERALITÄT auf die endgültige Entropieformel auswirkt.
Wir können also definieren, wie allgemein (z. B. Regen / kein Regen) oder spezifisch (z. B. hell / mittel / stark / sehr schwerer Regen) eine Nachricht ist, basierend auf der Anzahl der Bits, die zum Codieren benötigt werden:log2(x)=number_of_bits_to_encode_the_messages
Nun setzen Sie sich, entspannen Sie sich und schauen Sie, wie schön Shannons Entropy den Trick macht: Es basiert auf der (vernünftigen) Annahme, dass Nachrichten, die allgemeiner sind, folglich häufiger sind.
ZB werde ich sagen, dass es entweder regnet, wenn es ein durchschnittlicher, starker oder sehr schwerer Regen ist. Daher schlug er vor, die ALLGEMEINHEIT von Nachrichten basierend darauf zu codieren, wie häufig sie sind ... und los geht's:
mit die Häufigkeit einer Nachricht .N x
Die Gleichung kann folgendermaßen interpretiert werden: Seltene Nachrichten haben eine längere Codierung, da sie weniger allgemein sind. Daher müssen mehr Bits codiert werden, und sie sind weniger informativ. Daher tragen spezifischere und seltenere Botschaften mehr zur Entropie bei als viele allgemeine und häufige Botschaften.
Bei der endgültigen Formulierung möchten wir zwei Aspekte berücksichtigen. Das erste, , ist, dass häufige Nachrichten leichter vorhergesagt werden können und aus dieser Perspektive weniger informativ sind (dh längere Codierung bedeutet höhere Entropie). Das zweite, , ist, dass häufige Nachrichten ebenfalls allgemein und aus dieser Perspektive informativer sind (dh kürzere Codierung bedeutet geringere Entropie).p(x) −log(p(x))
Die höchste Entropie ist, wenn wir ein System mit vielen seltenen und spezifischen Nachrichten haben. Die niedrigste Entropie mit häufigen und allgemeinen Botschaften. Dazwischen gibt es ein Spektrum von entropieäquivalenten Systemen, die sowohl seltene als auch allgemeine Botschaften oder häufige, aber spezifische Botschaften enthalten können.
quelle
Ich glaube nicht, dass es möglich ist, Ihnen eine universelle "intuitive" Antwort zu geben. Ich gebe Ihnen eine Antwort, die für manche Menschen, wie zum Beispiel Physiker, intuitiv ist. Der Logarithmus dient dazu, die durchschnittliche Energie des Systems zu erhalten. Hier sind Details.
Shannon benutzte ein Wort " Entropie ", weil er das Konzept der statistischen Mechanik adaptierte . In der statistischen Mechanik gibt es eine wegweisende Verteilung, die nach Boltzmann benannt ist. Interessanterweise ist es eine wichtige Distribution im maschinellen Lernen!
Die Boltzmann-Verteilung kann als wobei Konstanten sind und die Energie des Systems in einem Zustand des Zustandsraums . In der klassischen Thermodynamik ist , wobei eine Koordinate und ein Impuls des Teilchens sind. Es ist eine richtige Wahrscheinlichkeitsfunktion, wenn die Konstanten richtig ausgewählt sind, dh . Es kann auch interessant sein, dass einer Temperatur des Systems entspricht.P=ea−Eb a,b E dV V dV=dpdx x,p a,b ∫VPdV=1 b
Beachten Sie nun, wie , dh ein Logarithmus der Wahrscheinlichkeit, linear (proportional) zur Energie ist. Nun können Sie sehen, dass der folgende Ausdruck im Wesentlichen ein erwarteter Energiewert des Systems ist: Dies ist, was Gibbs getan hat.lnP∼E S≡−∫VPlnPdV=<E>
Also nahm Shannon dieses Ding und diskretisierte es als und nannte es "Entropie", und wir nennen dies "Shannon-Entropie". Es gibt hier kein Energiekonzept mehr , aber vielleicht könnten Sie die Wahrscheinlichkeit eines Zustands und dies eine Energie des Staates nennen?η=−∑iPilnPi e−Pi
Ist das für Sie intuitiv genug? Es ist für mich, aber ich war ein theoretischer Physiker im vergangenen Leben. Sie können auch zu einer tieferen Ebene der Intuition gelangen, indem Sie sich mit noch älteren thermodynamischen Konzepten wie Temperatur und Werken von Boltzmann und Clausius verbinden.
quelle