Statistische Interpretation der maximalen Entropieverteilung

23

Ich habe das Prinzip der maximalen Entropie verwendet, um die Verwendung mehrerer Verteilungen in verschiedenen Umgebungen zu rechtfertigen. Ich muss jedoch noch eine statistische, im Gegensatz zur informationstheoretischen Interpretation der maximalen Entropie formulieren können. Mit anderen Worten, was bedeutet die Maximierung der Entropie für die statistischen Eigenschaften der Verteilung?

Hat jemand eine statistische Interpretation von max. Entropiedistributionen, die sich nicht auf Informationen, sondern nur auf probabilistische Konzepte beziehen?

Als Beispiel für eine solche Interpretation (nicht notwendigerweise wahr): "Für ein Intervall von beliebiger Länge L in der Domäne des RV (wobei der Einfachheit halber angenommen wird, dass es sich um ein 1-d-stetiges Intervall handelt) wird die maximale Wahrscheinlichkeit, die in diesem Intervall enthalten sein kann, minimiert durch die maximale Entropieverteilung. "

Sie sehen, es wird nicht über "Informativität" oder andere eher philosophische Ideen gesprochen, sondern nur über probabilistische Implikationen.

Annika
quelle
3
Ich denke, Sie müssen genauer angeben, wonach Sie suchen: Entropie ist immerhin ein "statistisches" Maß wie Varianz usw. Die maximale Entropieverteilung, die die Entropie maximiert, ist also eine perfekte statistische Beschreibung. Mir scheint, Sie müssen die Statistik verlassen, um eine "Rechtfertigung" zu finden
seanv507
1
Seanv: Ich bin damit einverstanden, dass Entropie als statistische Funktion genauso "statistisch" ist wie Varianz, Erwartungswert, Versatz usw. Bei Verwendung von Mittelwert und Standardabweichung haben diese jedoch rein probabilistische Interpretationen über Markovs und Chebyshevs Theoreme und letztendlich in einer von mehreren zentralen Grenzwertsätzen und auch intuitiv als Langzeitsummen (für den Mittelwert) und RMS-Fehler (für die Standardabweichung). Ich sollte vielleicht meine Frage zu "Probabilistische Interpretation maximaler Entropieverteilungen" neu formulieren.
Annika
1
Annika, maximale Entropie Verteilung hat die folgende Interpretation: Wenn ist iid Zufallsvariablen, dann die bedingte probalitity P ( | X 1 + + X n = n a ) P * ( ) als n wobei P die maximale Entropieverteilung aus der Menge ist { P : E P X = a }X1,X2,P(|X1++Xn=nein)P()nP{P:EPX=a}. Siehe auch ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1056374&tag=1
Ashok
2
Vielen Dank, Ashok. Ich werde mir das Papier genauer ansehen. Dies scheint ein spezifischer Fall der Maximierung der Entropie für einen bestimmten Mittelwert zu sein, aber ich bin immer noch gespannt, wie sich die Maximierung der Shanon-Entropie mathematisch verhält, sodass das obige Ergebnis zutrifft. Minimiert es effektiv die maximale Dichte oder die durchschnittliche Konzentration des Wahrscheinlichkeitsmaßes?
Annika

Antworten:

19

Das ist nicht wirklich mein Fachgebiet, daher einige Überlegungen:

Ich werde mit dem Konzept der Überraschung beginnen . Was bedeutet es, überrascht zu sein? Normalerweise bedeutet dies, dass etwas passiert ist, was nicht erwartet wurde. Überraschen Sie es also mit einem probabilistischen Konzept und lassen Sie sich als solches erklären (IJ Good hat darüber geschrieben). Siehe auch Wikipedia und Bayesian Surprise .

Nehmen Sie den besonderen Fall einer Ja / Nein-Situation, etwas kann passieren oder nicht. Es passiert mit der Wahrscheinlichkeit p . Angenommen, wenn p = 0,9 und es passiert, sind Sie nicht wirklich überrascht. Wenn p=0.05 und es passiert, sind Sie etwas überrascht. Und wenn p=0.0000001 und es passiert, sind Sie wirklich überrascht. Ein natürliches Maß für den "Überraschungswert im beobachteten Ergebnis" ist also eine (anti) monotone Funktion der Wahrscheinlichkeit dessen, was passiert ist. Es erscheint natürlich (und funktioniert gut ...), den Logarithmus der Wahrscheinlichkeit des Geschehens zu nehmen, und dann geben wir ein Minuszeichen ein, um eine positive Zahl zu erhalten. Durch den Logarithmus konzentrieren wir uns auch auf die Reihenfolge der Überraschung, und in der Praxis sind Wahrscheinlichkeiten oft nur bis zu einer bestimmten Reihenfolge mehr oder weniger bekannt .

Wir definieren also

Surprise(A)=logp(A)
wobei A das beobachtete Ergebnis und p(A) seine Wahrscheinlichkeit ist.

Jetzt können wir fragen, was die erwartete Überraschung ist . Sei X eine Bernoulli-Zufallsvariable mit der Wahrscheinlichkeit p . Es gibt zwei mögliche Ergebnisse: 0 und 1. Der jeweilige Überraschungswert ist

Überraschung(0)=-Log(1-p)Überraschung(1)=-Logp
also die Überraschung beim Beobachten vonXist selbst eine Zufallsvariable mit der Erwartung
p-Logp+(1-p)-Log(1-p)
und das ist --- überraschung! --- die Entropie vonX! So wird EntropieÜberraschung erwartet!

In dieser Frage geht es um die maximale Entropie . Warum sollte jemand eine maximale Entropieverteilung verwenden wollen? Nun, es muss sein, weil sie maximal überrascht sein wollen! Warum sollte jemand das wollen?

Ein Weg, es zu betrachten, ist der folgende: Sie möchten etwas lernen, und zu diesem Zweck stellen Sie einige Lernerfahrungen (oder Experimente ...) auf. Wenn Sie bereits alles über dieses Thema gewusst haben, können Sie es immer perfekt vorhersagen und sind nie überrascht. Dann bekommst du nie neue Erfahrungen, also lerne nichts Neues (aber du weißt schon alles - es gibt nichts zu lernen, also ist das in Ordnung). In der typischen Situation, dass Sie verwirrt sind und nicht in der Lage sind, perfekt vorauszusagen, gibt es eine Lernmöglichkeit! Dies führt zu der Idee, dass wir das "Ausmaß des möglichen Lernens" an der erwarteten Überraschung , dh an der Entropie, messen können . Die Maximierung der Entropie ist also nichts anderes als die Maximierung der Lernmöglichkeiten. Das klingt nach einem nützlichen Konzept, das bei der Gestaltung von Experimenten und dergleichen nützlich sein könnte.

Ein poetisches Beispiel ist das bekannte

Wenn einer eine Reise macht, dann kann er erzählen ...

Ein praktisches Beispiel: Sie möchten ein System für Online-Tests entwerfen (Online bedeutet, dass nicht jeder die gleichen Fragen erhält, die Fragen werden dynamisch in Abhängigkeit von den vorherigen Antworten ausgewählt und auf irgendeine Weise für jede Person optimiert).

Wenn Sie zu schwierige Fragen stellen, damit sie nie gemeistert werden, lernen Sie nichts. Das bedeutet, dass Sie den Schwierigkeitsgrad senken müssen. Was ist der optimale Schwierigkeitsgrad, dh der Schwierigkeitsgrad, der die Lernrate maximiert? Die Wahrscheinlichkeit der richtigen Antwort sei p . Wir wollen den Wert von p , der die Bernoulli-Entropie maximiert. Das ist aber p=0.5 . Sie möchten also Fragen angeben, bei denen die Wahrscheinlichkeit, eine richtige Antwort (von dieser Person) zu erhalten, 0,5 beträgt.

Dann wird der Fall einer kontinuierlichen Zufallsvariablen X . Wie können wir überrascht sein, wenn wir X beobachten ? Die Wahrscheinlichkeit eines bestimmten Ergebnisses {X=x} ist Null, die logp Definition ist unbrauchbar. Wir werden uns jedoch wundern, wenn die Wahrscheinlichkeit, etwas wie x beobachten, gering ist, dh wenn der Dichtefunktionswert f(x) gering ist (vorausgesetzt, f ist stetig). Das führt zur Definition

Surprise(x)=logf(x)
Mit dieser Definition ist die erwartete Überraschung aus der Beobachtung X ist
E{logf(X)}=f(x)logf(x)dx
, dass die erwartete Überraschung ausBeobachtung ist,X ist die differentielle EntropieX . Es kann auch als die erwartete Log-Wahrscheinlichkeit angesehen werden.

X

kjetil b halvorsen
quelle
5
Dies ist eine der besten und intuitivsten Erklärungen für die maximale Entropie, die ich je gesehen habe!
Vladislavs Dovgalecs
3

Obwohl ich kein Experte für Informationstheorie und maximale Entropie bin, habe ich mich schon eine Weile dafür interessiert.

Die Entropie ist ein Maß für die Unsicherheit einer Wahrscheinlichkeitsverteilung, die nach einer Reihe von Kriterien abgeleitet wurde. Es und verwandte Maße charakterisieren Wahrscheinlichkeitsverteilungen. Und es ist das einzigartige Maß, das diese Kriterien erfüllt. Dies ähnelt dem Fall der Wahrscheinlichkeit selbst, der, wie in Jaynes (2003) schön erklärt, das eindeutige Maß ist, das einige sehr wünschenswerte Kriterien für jedes Maß für die Unsicherheit logischer Aussagen erfüllt.

Jedes andere Maß für die Unsicherheit einer Wahrscheinlichkeitsverteilung, das sich von der Entropie unterscheidet, müsste gegen eines oder mehrere der Kriterien verstoßen, die zur Definition der Entropie herangezogen werden (andernfalls wäre es notwendigerweise Entropie). Wenn Sie also eine allgemeine Aussage hinsichtlich der Wahrscheinlichkeit hätten, dass Sie auf irgendeine Weise die gleichen Ergebnisse wie die maximale Entropie erzielen würden ... dann wäre es die maximale Entropie!

Das Nächste, was ich bisher zu einer Wahrscheinlichkeitsaussage über maximale Entropieverteilungen finden kann, ist Jaynes 'Konzentrationssatz . Sie finden es klar erklärt in Kapur und Kesavan (1992). Hier ist eine lockere Wiederholung:

pnpii=1,...,nmm+1

Sm+1Smax

N

2N(SmaxS)χnm12.

(Smaxχnm12(0.95)2N,Smax).
Smaxχnm12(0.95)2N

ET Jaynes (2003) Wahrscheinlichkeitstheorie: Die Logik der Wissenschaft. Cambridge University Press.

JN Kapur und .K. Kesavan (1992) Entropy Optimization Principles with Applications. Academic Press, Inc.

jvbraun
quelle
3

σ

In dieser Interpretation drückt der zentrale Grenzwertsatz daher die Tatsache aus, dass die symbolische Entropie von Summen unabhängiger Zufallsvariablen mit mittlerer Null und gemeinsamer Varianz zum Maximum tendiert zweites Hauptsatz der Thermodynamik, den Eddington als 'die höchste Position unter den Naturgesetzen' ansah. "

Ich habe die Auswirkungen noch nicht untersucht und bin mir auch nicht sicher, ob ich sie vollständig verstehe.

[Bearbeiten: Tippfehler behoben]

F. Tusell
quelle