Welche Rolle spielt der Logarithmus in Shannons Entropie?

72

Shannons Entropie ist das Negativ der Summe der Wahrscheinlichkeiten jedes Ergebnisses multipliziert mit dem Logarithmus der Wahrscheinlichkeiten für jedes Ergebnis. Welchen Zweck erfüllt der Logarithmus in dieser Gleichung?

Eine intuitive oder visuelle Antwort (im Gegensatz zu einer zutiefst mathematischen Antwort) erhält Bonuspunkte!

Histelheim
quelle
11
Sie (oder andere Leser) können genießen: A. Renyi (1961), Über Maßnahmen der Entropie und Information , Proc. des vierten Berkeley-Symposiums für mathematische Statistik und Wahrscheinlichkeitsrechnung , vol. 1, 547 & ndash; 561.
Kardinal
Ich nehme an, Sie meinen aufgrund Ihrer Reaktion , warum Shannon Logarithmus in seiner Formel verwendet hat, oder?
Ooker
@Ooker: Das ist eine Möglichkeit, es auszudrücken. "Warum" hat er es eingegeben? "Was" ist es Funktion oder Rolle "?" Was "erreicht es?" Wie "ist es hilfreich? Für mich sind alle in der gleichen Nachbarschaft ...
Histelheim
Schau dir meine Antwort hier an: stats.stackexchange.com/questions/66186/…
kjetil b halvorsen
Sehen Sie meine Antwort, ich denke, die Bedeutung eines Protokolls kann wirklich nur verstanden werden, wenn man die Wurzeln der Shannon-Entropie in der statistischen Mechanik untersucht
Aksakal,

Antworten:

51

Die Shannon-Entropie ist eine Größe, die eine Reihe von Beziehungen erfüllt.

Kurz gesagt, Logarithmus soll es linear mit der Systemgröße wachsen lassen und "sich wie Informationen verhalten".

Das erste Mittel , dass eine Münze von Entropie wirft mal mal Entropie eine Münze zu werfen:nn

i=12n12nlog(12n)=i=12n12nnlog(12)=n(i=1212log(12))=n.

Oder nur um zu sehen, wie es funktioniert, wenn zwei verschiedene Münzen geworfen werden (vielleicht unfair - mit Köpfen mit der Wahrscheinlichkeit und Schwänzen für die erste Münze und und für die zweite) also die Eigenschaften des Logarithmus (Logarithmus des Produkts ist Summe von Logarithmen) sind entscheidend.p1p2q1q2

i=12j=12piqjlog(piqj)=i=12j=12piqj(log(pi)+log(qj))
=i=12j=12piqjlog(pi)i=12j=12piqjlog(qj)=i=12pilog(pi)j=12qjlog(qj)

Aber auch die Rényi-Entropie hat diese Eigenschaft (sie wird durch eine reelle Zahl parametrisiert , die für Shannon-Entropie ).αα1

Hier kommt jedoch die zweite Eigenschaft - die Shannon-Entropie ist etwas Besonderes, da sie sich auf Informationen bezieht. Um ein intuitives Gefühl zu bekommen, können Sie als Durchschnitt von .

H=ipilog(1pi)
log(1/p)

Wir können Informationen aufrufen . Warum? Denn wenn alle Ereignisse mit der Wahrscheinlichkeit eintreten , bedeutet dies, dass es Ereignisse gibt. Um festzustellen, welches Ereignis aufgetreten ist, müssen wir -Bits verwenden (jedes Bit verdoppelt die Anzahl der Ereignisse, die wir unterscheiden können).log(1/p)p1/plog(1/p)

Möglicherweise haben Sie Angst: "OK, wenn alle Ereignisse die gleiche Wahrscheinlichkeit haben, ist es sinnvoll, als Maß für die Information zu verwenden. Wenn dies nicht der Fall ist, warum ist es dann sinnvoll, Informationen zu mitteln?" - und es ist ein natürliches Anliegen.log(1/p)

Aber es stellt sich heraus, dass es sinnvoll ist - Shannons Satz der Quellcodierung besagt, dass eine Zeichenfolge mit nicht korrelierten Buchstaben mit Wahrscheinlichkeiten der Länge nicht (im Durchschnitt) auf eine Binärzeichenfolge komprimiert werden kann, die kürzer als . Tatsächlich können wir Huffman-Codierung verwenden , um die Zeichenfolge zu komprimieren und sehr nahe zu kommen .{pi}innHn HnH

Siehe auch:

Piotr Migdal
quelle
11
Diese Antwort hat viele nette Details - aber aus der Sicht eines Laien geht sie immer noch um das Thema - welche Rolle spielt der Logarithmus? Warum können wir die Entropie nicht ohne den Logarithmus berechnen?
Histelheim
6
@histelheim Was meinst du mit "ohne den Logarithmus"? ist nur einer. Wenn Sie ein anderes Maß für die Diversität ohne wünschen , schauen Sie sich die Diversitätsindizes an - z. B. den so genannten Inversen Simpson-Index der die effektive Anzahl der Auswahlmöglichkeiten angibt (eine über der durchschnittlichen Wahrscheinlichkeit), dann gibt es den Gini-Simpson-Index der immer zwischen 0 und eins liegt. Und wenn Sie sich nicht für subtile informationsbezogene Eigenschaften der Shannon-Entropie interessieren, können Sie jede von ihnen verwenden (obwohl sie niedrige und hohe Wahrscheinlichkeiten unterschiedlich gewichten). log 1 / i p 2 i 1 - i p 2 iipilog 1/ipi2 1ipi2
Piotr Migdal
10
Ihr letzter Kommentar, Histelheim, verblüfft mich: Worauf könnte sich "Entropie ohne Logarithmus" möglicherweise beziehen? Das deutet darauf hin, dass Sie Ihre Frage noch nicht klar formuliert haben, denn es scheint, als hätten Sie ein unausgesprochenes Konzept der "Entropie" im Sinn. Bitte lassen Sie uns nicht raten - bearbeiten Sie Ihre Frage, damit Ihre Leser die Antworten geben können, nach denen Sie suchen.
Whuber
1
@ Piotr Migdal - Sie schreiben "Logarithmus soll linear mit der Systemgröße wachsen und" sich wie Informationen verhalten "." - Dies scheint für mich von entscheidender Bedeutung zu sein, um die Rolle des Logarithmus zu verstehen. Ich bin mir jedoch nicht ganz sicher, was dies bedeutet.
Histelheim
1
@ Piotr Migdal - weiter Ihre Erklärung nach "Wir können log (1 / p) Informationen aufrufen. Warum?" scheint mir sinnvoll zu sein. Ist es so, dass der Logarithmus uns im Wesentlichen von einem Diversity-Index zu einem Informationsindex bewegt - der die Anzahl der Bits misst, die wir benötigen, um die Ereignisse auseinanderzuhalten?
Histelheim
25

Dies ist das Gleiche wie bei den anderen Antworten, aber ich denke, der beste Weg, dies zu erklären, ist zu sehen, was Shannon in seinem Originalartikel sagt.

Das logarithmische Maß ist aus verschiedenen Gründen praktischer:

  1. Es ist praktisch nützlicher. Parameter von technischer Bedeutung wie Zeit, Bandbreite, Anzahl der Relais usw. variieren tendenziell linear mit dem Logarithmus der Anzahl der Möglichkeiten. Wenn Sie beispielsweise ein Relais zu einer Gruppe hinzufügen, verdoppelt sich die Anzahl der möglichen Zustände der Relais. Der Logarithmus zur Basis 2 dieser Zahl wird um 1 erhöht. Durch Verdoppeln der Zeit wird die Anzahl der möglichen Nachrichten ungefähr quadriert oder der Logarithmus usw. verdoppelt.
  2. Es ist unserem intuitiven Gefühl näher, das richtige Maß zu finden. Dies hängt eng mit (1) zusammen, da wir Entitäten intuitiv durch linearen Vergleich mit gängigen Standards messen. Man ist beispielsweise der Ansicht, dass zwei Lochkarten die doppelte Kapazität für die Informationsspeicherung und zwei identische Kanäle die doppelte Kapazität für die Informationsübertragung haben sollten.
  3. Es ist mathematisch besser geeignet. Viele der Begrenzungsoperationen sind logarithmisch einfach, erfordern jedoch eine umständliche Anpassung der Anzahl der Möglichkeiten

Quelle: Shannon, Eine mathematische Theorie der Kommunikation (1948) [ pdf ].


Man beachte, dass die Shannon-Entropie mit der Gibbs-Entropie der statistischen Mechanik übereinstimmt und es auch eine Erklärung dafür gibt, warum das Log in Gibbs-Entropie auftritt. In der statistischen Mechanik soll Entropie ein Maß für die Anzahl möglicher Zustände in denen ein System gefunden werden kann. Der Grund, warum besser ist als liegt darin, dass normalerweise eine sehr schnell wachsende Funktion seiner Argumente ist und daher durch eine Taylor-Erweiterung nicht sinnvoll approximiert werden kann, während kann. (Ich weiß nicht, ob dies die ursprüngliche Motivation für die Aufnahme des Protokolls war, aber in vielen einführenden Physikbüchern wird dies so erklärt.)log Ω Ω Ω log ΩΩlogΩΩΩlogΩ

Flunder
quelle
Diese Antwort scheint am konzentriertesten und dennoch informativsten zu sein.
Heller Stern
1
Aus diesem Grund wird das Protokoll in der Entropieberechnung nicht angezeigt. Aus diesem Grund werden die gemeldeten Informationen als solche gemeldet. Es gibt eine alternative Menge: die "Ratlosigkeit", die Informationen ohne das Protokoll meldet. In diesem Teil seiner Arbeit plädiert Shannon für Bits / Nats / Hartleys und gegen Ratlosigkeit.
Neil G
15

Eine andere Sichtweise ist aus algorithmischer Sicht. Stellen Sie sich vor, Sie erraten eine Zahl , und Sie haben nur die Information, dass diese Zahl im Intervall . In dieser Situation ist der optimale Algorithmus zum Erraten der Zahl ein einfacher binärer Suchalgorithmus, der in der Reihenfolge . Diese Formel sagt intuitiv aus, wie viele Fragen Sie stellen müssen, um herauszufinden, was . Wenn beispielsweise , müssen Sie maximal 3 Fragen stellen, um das unbekannte zu finden .1 x N × O ( log 2 N ) × N = 8 ×x1xNxO(log2N)xN=8x

Aus probabilistischer Sicht bedeutet für , wenn Sie erklären, dass mit gleicher Wahrscheinlichkeit Werte im Bereich sind . Claude Shannon hat deutlich gemacht, dass der Informationsgehalt eines Ergebnisses definiert ist als:1 x N p ( x ) = 1 / N 1 x N xx1xNp(x)=1/N1xNx

h(x)=log21p(x)

Der Grund für die Basis 2 im Logarithmus ist, dass wir hier die Informationen in Bits messen . Sie können auch einen natürlichen Logarithmus annehmen, der Ihre Informationen in Nats misst . Als ein Beispiel kann der Informationsgehalt von OUTCOM ist . Dieser Wert entspricht genau der Anzahl der Schritte im binären Suchalgorithmus (oder der Anzahl der IF-Anweisungen im Algorithmus). Daher ist die Anzahl der Fragen, die Sie benötigen, um herauszufinden, gleich , genau der Informationsgehalt des Ergebnisses .x=4h(4)=3x4x=4

Wir können auch die Leistung des binären Suchalgorithmus auf mögliche Ergebnisse analysieren. Eine Möglichkeit, dies zu tun, besteht darin, herauszufinden, wie viele Fragen für die Werte von erwarten sind . Beachten Sie, dass die Anzahl der erforderlichen Fragen, um einen Wert von zu erraten , wie oben beschrieben, . Daher ist die erwartete Anzahl von Fragen für jedes per Definition gleich:xxh(x)x

h(x)=1xNp(x)h(x)

h(x)H(X)H(X)

omidi
quelle
1
+ Dies ist eine meiner Lieblingsanwendungen der Informationstheorie - Algorithmusanalyse. Wenn Sie Entscheidungspunkte mit> 2 Ergebnissen haben, z. B. wenn Sie ein Array indizieren, ist dies das Prinzip hinter Hash-Codierung und O (n) -Sortierung.
Mike Dunlavey
Dieses Argument eignet sich gut für diskrete Entropie, lässt sich aber nicht einfach auf kontinuierliche Entropie verallgemeinern.
Neil G
12

Hier ist eine kurze Erklärung. Man könnte sagen, dass zwei Bücher der gleichen Größe doppelt so viele Informationen enthalten wie ein Buch, oder? (Betrachtet man ein Buch als eine Folge von Bits.) Nun, wenn ein bestimmtes Ergebnis die Wahrscheinlichkeit P hat, dann könnte man sagen, sein Informationsgehalt ist ungefähr die Anzahl der Bits, die Sie 1 / P ausschreiben müssen. (ZB wenn P = 1/256, das sind 8 Bits.) Die Entropie ist nur der Durchschnitt dieser Informationsbitlänge über alle Ergebnisse.

Mike Dunlavey
quelle
5

log(pi)log(pi)H(p1,,pN)

Shannon lieferte einen mathematischen Beweis für dieses Ergebnis, der gründlich aufgegriffen und weithin akzeptiert wurde. Der Zweck und die Bedeutung des Logarithmus in der Entropiegleichung sind daher in den Annahmen und Beweisen enthalten.

Das macht es nicht einfach zu verstehen, aber es ist letztendlich der Grund, warum der Logarithmus erscheint.

Ich habe festgestellt, dass die folgenden Verweise zusätzlich zu den an anderer Stelle aufgeführten nützlich sind:

  1. Wahrscheinlichkeitstheorie: Die Logik der Wissenschaft von ET Jaynes . Jaynes ist einer der wenigen Autoren, die viele Ergebnisse von Grund auf neu ableiten. siehe Kapitel 11.
  2. Informationstheorie, Inferenz und Lernalgorithmen von David MacKay. Enthält eine eingehende Analyse von Shannons Satz zur Quellenkodierung. siehe Kapitel 4.
user119961
quelle
4

Zusammenfassung:

nn

Beispiel:

661n=21

3.56/2=3

1

Lass uns das machen:

  • 6>3.5
  • 6/2=35
  • 6/2/2=1.5=6

63ceil(log2(6))=ceil(2.58)=3

ceil

2.58

log2(...)nn2logn(...)

Simulation:

import random

total_questions = 0
TOTAL_ROUNDS = 10000

for i in range(0,TOTAL_ROUNDS):
    outcome = random.randrange(1,7)
    total_questions += 1
    if outcome > 3.5:
        total_questions += 1
        if outcome >= 5:
            total_questions += 1
            if outcome == 5:
                pass
            else:
                # must be 6! no need to ask
                pass
        else:
            # must be 4! no need to ask
            pass
    else:
        total_questions += 1
        if outcome >= 2:
            total_questions += 1
            if outcome == 2:
                pass
            else:
                # must be 3! no need to ask
                pass
        else:
            # must be 1! no need to ask
            pass


print 'total questions: ' + str(total_questions)
print 'average questions per outcome: ' + str(total_questions/float(TOTAL_ROUNDS))

Ergebnisse:

total questions: 26634
average questions per outcome: 2.6634

2.6634log2(6)2.58

Was ist los mit dir? Es ist fast in der Nähe, aber nicht wirklich in der Nähe, wie ich gehofft hatte. Ist es Pythons PRNG, der versucht, einen langsamen Witz zu sagen? Oder liegt Shannon falsch? Oder ist es - Gott verbiete - mein Verständnis ist falsch? So oder so HILFE. SOS schon Alter.

Höhlenmensch
quelle
2
65=7776log2(65)=1313/5=2.6190537492531492531/1905372.584962500722
@whuber mache ich das nicht in meinem Code? Ich werfe 10000 Würfel und die Gesamtzahl der Fragen, die ich für alle Würfel stelle. Ich mache dann sum / 10000 ich bekomme 2,66.
Höhlenmensch
1
Nein, das machen Sie in Ihrem Code überhaupt nicht! Sie müssen eine Reihe von Fragen stellen, um gleichzeitig den Status aller Würfel zu erhalten. Das ist nicht dasselbe wie die durchschnittliche Anzahl von Fragen, die benötigt werden, um den Zustand eines Würfels zu einem Zeitpunkt zu bestimmen.
Whuber
3

Ω={ω1,,ωn}p1,,pnH(p1,,pn)

  • H
  • Hnp1==pn=1n
  • H
    H(12,16,13)=H(12,12)+12H(13,23).

H

H(p1,,pn)=i=1npilogkpi
k>1k=2
Neil G
quelle
3

Diese Frage wurde vor zwei Jahren gestellt und es gab bereits viele tolle Antworten, aber ich möchte meine hinzufügen, die mir sehr geholfen hat.

Die Frage ist

Welchen Zweck erfüllt der Logarithmus in dieser Gleichung?

Der Logarithmus (normalerweise basiert er auf 2) beruht auf der Kraft-Ungleichung .

i=1m2li<=1

liLxP(x)

P(x)=2L(x)

L(x)=logP(x)P(x)L(x)

L(x)P(x)P(x)logP(x)

Eine intuitive Illustration und eine visuelle Antwort (je nach Bedarf, aber spezifischer für die Kraft-Ungleichung) werden in diesem Papier- Codebaum und in Krafts Ungleichung artikuliert .

Lerner Zhang
quelle
1

Ausgehend von Ihrer Nichtannahme von bereits gegebenen Antworten glaube ich, dass Sie nach dem Grund suchen, warum Shannon in seiner Formel überhaupt den Logarithmus verwendet hat. Mit anderen Worten, die Philosophie davon.

Haftungsausschluss : Ich bin nur für eine Woche in diesem Bereich und komme hierher, weil ich die Frage wie Sie habe . Wenn Sie mehr darüber wissen, lassen Sie es mich bitte wissen.

Ich habe diese Frage, nachdem ich einen der wichtigsten Artikel von Ulanowicz gelesen habe : Zunehmende Entropie: Hitzetod oder ewige Harmonien? . In diesem Abschnitt wird erklärt, warum die Formel -log (p) anstelle von (1-p) enthält:

Bevor die formale Definition von Entropie weiter entpackt wird, sollte man sich fragen, warum man nicht einfach (1 - p) anstelle von [–log (p)] als das am besten geeignete Maß für die Nichtexistenz wählt. Die Antwort ist, dass das resultierende Produkt mit p (das heißt [p - p ^ 2]) perfekt symmetrisch um den Wert p = 0,5 ist. Berechnungen nach einer solchen symmetrischen Kombination könnten nur ein reversibles Universum beschreiben. Boltzmann und Gibbs versuchten jedoch, ein irreversibles Universum zu quantifizieren. Durch die Wahl der univariaten konvexen logarithmischen Funktion vermittelte Boltzmann dem Nichtsein eine Voreingenommenheit gegenüber dem Sein. Man merkt zum Beispiel, dass max [–xlog {x}] = {1 / e} ≈ 0,37 ist, so dass das Maß der Unbestimmtheit in Richtung niedrigerer Werte von pi verschoben ist.

Es sieht so aus, als hätte Shannon den Logarithmus ohne Grund gewählt. Er "roch" nur, dass er Logarithmus verwenden sollte. Warum hat Newton in seiner Formel F = m * a eine Multiplikationsoperation gewählt?

Beachten Sie, dass er zu diesem Zeitpunkt keine Ahnung von Entropie hatte :

Meine größte Sorge war, wie ich es nennen sollte. Ich dachte daran, es als "Information" zu bezeichnen, aber das Wort wurde zu häufig verwendet, und beschloss, es als "Unsicherheit" zu bezeichnen. Als ich mit John von Neumann darüber sprach, hatte er eine bessere Idee. Von Neumann sagte zu mir: »Sie sollten es aus zwei Gründen Entropie nennen. Erstens wurde Ihre Unsicherheitsfunktion in der Statistikmechanik unter diesem Namen verwendet, sodass sie bereits einen Namen hat. Zweitens, und was noch wichtiger ist, niemand weiß, was Entropie wirklich ist. In einer Debatte haben Sie also immer den Vorteil.

Meine Antwort lautet also: Es gibt keinen Grund dafür. Er entschied sich dafür, weil es einfach magisch funktionierte.

Ooker
quelle
0

Entropie ist definiert als der Logarithmus des geometrischen Mittels des Multinomialkoeffizienten, der die Anzahl der Zustände angibt, in denen sich ein System befinden kann:

log(Nn1,,nk)N

Die Logarithmen erscheinen in der Formel nach Stirlings Approximation der Fakultät (siehe diese Erklärung ).

Atamiri
quelle
3
Ich glaube, das OP weiß, dass der Logarithmus Teil der Definition ist. Sie fragen, warum es dort ist?
Whuber
0

Das Protokoll stammt aus der Herleitung einer Funktion H, die bestimmte natürliche Anforderungen erfüllt. Siehe Seite 3 Sek. 2 dieser Quelle:

http://www.lptl.jussieu.fr/user/lesne/MSCS-entropy.pdf

Wenn Sie unter Berücksichtigung der Axiome die Optimierung durchführen, erhalten Sie eine eindeutige Funktion (bis zu Konstanten), in die Sie sich einloggen.

Alle obigen Antworten sind korrekt, mit der Ausnahme, dass sie das Protokoll interpretieren, aber die Quelle nicht erläutern.

Swapnil Bhatia
quelle
0

Ich denke, Ihre Frage bezieht sich eher auf die "Bedeutung" dieses Logarithmus und darauf, warum jede Komponente zur Gesamtbedeutung der Formel beiträgt, als auf den bloßen Formalismus, der die Kohärenz der Definition mit bestimmten Anforderungen zeigt.

Die Idee der Shannon-Entropie besteht darin, die Informationen einer Nachricht anhand ihrer FREQUENZ (dh ) und ihrer GENERALITÄT (dh ) zu :p(x)log(p(x))

  • p(x) : Je "häufiger" eine Nachricht ist, desto weniger Informationen werden übertragen (dh umso besser sind Vorhersagen möglich).
  • log(p(x)) : Je "allgemeiner" eine Nachricht ist, desto mehr Informationen werden übertragen.

Der erste Term handelt von der Häufigkeit, der von seiner Allgemeinheit.p(x)log(p(x))


Von nun an werde ich diskutieren, wie sich die GENERALITÄT auf die endgültige Entropieformel auswirkt.

Wir können also definieren, wie allgemein (z. B. Regen / kein Regen) oder spezifisch (z. B. hell / mittel / stark / sehr schwerer Regen) eine Nachricht ist, basierend auf der Anzahl der Bits, die zum Codieren benötigt werden:

log2(x)=number_of_bits_to_encode_the_messages

Nun setzen Sie sich, entspannen Sie sich und schauen Sie, wie schön Shannons Entropy den Trick macht: Es basiert auf der (vernünftigen) Annahme, dass Nachrichten, die allgemeiner sind, folglich häufiger sind.

ZB werde ich sagen, dass es entweder regnet, wenn es ein durchschnittlicher, starker oder sehr schwerer Regen ist. Daher schlug er vor, die ALLGEMEINHEIT von Nachrichten basierend darauf zu codieren, wie häufig sie sind ... und los geht's:

log2N=log21/N=log2P

mit die Häufigkeit einer Nachricht .Nx

Die Gleichung kann folgendermaßen interpretiert werden: Seltene Nachrichten haben eine längere Codierung, da sie weniger allgemein sind. Daher müssen mehr Bits codiert werden, und sie sind weniger informativ. Daher tragen spezifischere und seltenere Botschaften mehr zur Entropie bei als viele allgemeine und häufige Botschaften.


Bei der endgültigen Formulierung möchten wir zwei Aspekte berücksichtigen. Das erste, , ist, dass häufige Nachrichten leichter vorhergesagt werden können und aus dieser Perspektive weniger informativ sind (dh längere Codierung bedeutet höhere Entropie). Das zweite, , ist, dass häufige Nachrichten ebenfalls allgemein und aus dieser Perspektive informativer sind (dh kürzere Codierung bedeutet geringere Entropie).p(x)log(p(x))

Die höchste Entropie ist, wenn wir ein System mit vielen seltenen und spezifischen Nachrichten haben. Die niedrigste Entropie mit häufigen und allgemeinen Botschaften. Dazwischen gibt es ein Spektrum von entropieäquivalenten Systemen, die sowohl seltene als auch allgemeine Botschaften oder häufige, aber spezifische Botschaften enthalten können.

Gabrer
quelle
0

Ich glaube nicht, dass es möglich ist, Ihnen eine universelle "intuitive" Antwort zu geben. Ich gebe Ihnen eine Antwort, die für manche Menschen, wie zum Beispiel Physiker, intuitiv ist. Der Logarithmus dient dazu, die durchschnittliche Energie des Systems zu erhalten. Hier sind Details.

Shannon benutzte ein Wort " Entropie ", weil er das Konzept der statistischen Mechanik adaptierte . In der statistischen Mechanik gibt es eine wegweisende Verteilung, die nach Boltzmann benannt ist. Interessanterweise ist es eine wichtige Distribution im maschinellen Lernen!

Die Boltzmann-Verteilung kann als wobei Konstanten sind und die Energie des Systems in einem Zustand des Zustandsraums . In der klassischen Thermodynamik ist , wobei eine Koordinate und ein Impuls des Teilchens sind. Es ist eine richtige Wahrscheinlichkeitsfunktion, wenn die Konstanten richtig ausgewählt sind, dh . Es kann auch interessant sein, dass einer Temperatur des Systems entspricht.

P=eaEb
a,bEdVVdV=dpdxx,pa,bVPdV=1b

Beachten Sie nun, wie , dh ein Logarithmus der Wahrscheinlichkeit, linear (proportional) zur Energie ist. Nun können Sie sehen, dass der folgende Ausdruck im Wesentlichen ein erwarteter Energiewert des Systems ist: Dies ist, was Gibbs getan hat.lnPE

SVPlnPdV=<E>

Also nahm Shannon dieses Ding und diskretisierte es als und nannte es "Entropie", und wir nennen dies "Shannon-Entropie". Es gibt hier kein Energiekonzept mehr , aber vielleicht könnten Sie die Wahrscheinlichkeit eines Zustands und dies eine Energie des Staates nennen?

η=iPilnPi
ePi

Ist das für Sie intuitiv genug? Es ist für mich, aber ich war ein theoretischer Physiker im vergangenen Leben. Sie können auch zu einer tieferen Ebene der Intuition gelangen, indem Sie sich mit noch älteren thermodynamischen Konzepten wie Temperatur und Werken von Boltzmann und Clausius verbinden.

Aksakal
quelle