Ich habe das Prinzip der maximalen Entropie verwendet, um die Verwendung mehrerer Verteilungen in verschiedenen Umgebungen zu rechtfertigen. Ich muss jedoch noch eine statistische, im Gegensatz zur informationstheoretischen Interpretation der maximalen Entropie formulieren können. Mit anderen Worten, was bedeutet die Maximierung der Entropie für die statistischen Eigenschaften der Verteilung?
Hat jemand eine statistische Interpretation von max. Entropiedistributionen, die sich nicht auf Informationen, sondern nur auf probabilistische Konzepte beziehen?
Als Beispiel für eine solche Interpretation (nicht notwendigerweise wahr): "Für ein Intervall von beliebiger Länge L in der Domäne des RV (wobei der Einfachheit halber angenommen wird, dass es sich um ein 1-d-stetiges Intervall handelt) wird die maximale Wahrscheinlichkeit, die in diesem Intervall enthalten sein kann, minimiert durch die maximale Entropieverteilung. "
Sie sehen, es wird nicht über "Informativität" oder andere eher philosophische Ideen gesprochen, sondern nur über probabilistische Implikationen.
Antworten:
Das ist nicht wirklich mein Fachgebiet, daher einige Überlegungen:
Ich werde mit dem Konzept der Überraschung beginnen . Was bedeutet es, überrascht zu sein? Normalerweise bedeutet dies, dass etwas passiert ist, was nicht erwartet wurde. Überraschen Sie es also mit einem probabilistischen Konzept und lassen Sie sich als solches erklären (IJ Good hat darüber geschrieben). Siehe auch Wikipedia und Bayesian Surprise .
Nehmen Sie den besonderen Fall einer Ja / Nein-Situation, etwas kann passieren oder nicht. Es passiert mit der Wahrscheinlichkeitp . Angenommen, wenn p = 0,9 und es passiert, sind Sie nicht wirklich überrascht. Wenn p=0.05 und es passiert, sind Sie etwas überrascht. Und wenn p=0.0000001 und es passiert, sind Sie wirklich überrascht. Ein natürliches Maß für den "Überraschungswert im beobachteten Ergebnis" ist also eine (anti) monotone Funktion der Wahrscheinlichkeit dessen, was passiert ist. Es erscheint natürlich (und funktioniert gut ...), den Logarithmus der Wahrscheinlichkeit des Geschehens zu nehmen, und dann geben wir ein Minuszeichen ein, um eine positive Zahl zu erhalten. Durch den Logarithmus konzentrieren wir uns auch auf die Reihenfolge der Überraschung, und in der Praxis sind Wahrscheinlichkeiten oft nur bis zu einer bestimmten Reihenfolge mehr oder weniger bekannt .
Wir definieren alsoSurprise(A)=−logp(A)
wobei A das beobachtete Ergebnis und p(A) seine Wahrscheinlichkeit ist.
Jetzt können wir fragen, was die erwartete Überraschung ist . SeiX eine Bernoulli-Zufallsvariable mit der Wahrscheinlichkeit p . Es gibt zwei mögliche Ergebnisse: 0 und 1. Der jeweilige Überraschungswert ist
Überraschung ( 0 )Überraschung ( 1 )= - log( 1 - p )= - logp
also die Überraschung beim Beobachten vonX ist selbst eine Zufallsvariable mit der Erwartung
p ⋅ - logp + ( 1 - p ) ⋅ - log( 1 - p )
und das ist --- überraschung! --- die Entropie vonX ! So wird EntropieÜberraschung erwartet!
In dieser Frage geht es um die maximale Entropie . Warum sollte jemand eine maximale Entropieverteilung verwenden wollen? Nun, es muss sein, weil sie maximal überrascht sein wollen! Warum sollte jemand das wollen?
Ein Weg, es zu betrachten, ist der folgende: Sie möchten etwas lernen, und zu diesem Zweck stellen Sie einige Lernerfahrungen (oder Experimente ...) auf. Wenn Sie bereits alles über dieses Thema gewusst haben, können Sie es immer perfekt vorhersagen und sind nie überrascht. Dann bekommst du nie neue Erfahrungen, also lerne nichts Neues (aber du weißt schon alles - es gibt nichts zu lernen, also ist das in Ordnung). In der typischen Situation, dass Sie verwirrt sind und nicht in der Lage sind, perfekt vorauszusagen, gibt es eine Lernmöglichkeit! Dies führt zu der Idee, dass wir das "Ausmaß des möglichen Lernens" an der erwarteten Überraschung , dh an der Entropie, messen können . Die Maximierung der Entropie ist also nichts anderes als die Maximierung der Lernmöglichkeiten. Das klingt nach einem nützlichen Konzept, das bei der Gestaltung von Experimenten und dergleichen nützlich sein könnte.
Ein poetisches Beispiel ist das bekannte
Ein praktisches Beispiel: Sie möchten ein System für Online-Tests entwerfen (Online bedeutet, dass nicht jeder die gleichen Fragen erhält, die Fragen werden dynamisch in Abhängigkeit von den vorherigen Antworten ausgewählt und auf irgendeine Weise für jede Person optimiert).
Wenn Sie zu schwierige Fragen stellen, damit sie nie gemeistert werden, lernen Sie nichts. Das bedeutet, dass Sie den Schwierigkeitsgrad senken müssen. Was ist der optimale Schwierigkeitsgrad, dh der Schwierigkeitsgrad, der die Lernrate maximiert? Die Wahrscheinlichkeit der richtigen Antwort seip . Wir wollen den Wert von p , der die Bernoulli-Entropie maximiert. Das ist aber p=0.5 . Sie möchten also Fragen angeben, bei denen die Wahrscheinlichkeit, eine richtige Antwort (von dieser Person) zu erhalten, 0,5 beträgt.
Dann wird der Fall einer kontinuierlichen ZufallsvariablenX . Wie können wir überrascht sein, wenn wir X beobachten ? Die Wahrscheinlichkeit eines bestimmten Ergebnisses {X=x} ist Null, die −logp Definition ist unbrauchbar. Wir werden uns jedoch wundern, wenn die Wahrscheinlichkeit, etwas wie x beobachten, gering ist, dh wenn der Dichtefunktionswert f(x) gering ist (vorausgesetzt, f ist stetig). Das führt zur Definition
Surprise(x)=−logf(x)
Mit dieser Definition ist die erwartete Überraschung aus der Beobachtung X ist
E{−logf(X)}=−∫f(x)logf(x)dx ,
dass die erwartete Überraschung ausBeobachtung ist,X ist die differentielle EntropieX . Es kann auch als die erwartete Log-Wahrscheinlichkeit angesehen werden.
quelle
Obwohl ich kein Experte für Informationstheorie und maximale Entropie bin, habe ich mich schon eine Weile dafür interessiert.
Die Entropie ist ein Maß für die Unsicherheit einer Wahrscheinlichkeitsverteilung, die nach einer Reihe von Kriterien abgeleitet wurde. Es und verwandte Maße charakterisieren Wahrscheinlichkeitsverteilungen. Und es ist das einzigartige Maß, das diese Kriterien erfüllt. Dies ähnelt dem Fall der Wahrscheinlichkeit selbst, der, wie in Jaynes (2003) schön erklärt, das eindeutige Maß ist, das einige sehr wünschenswerte Kriterien für jedes Maß für die Unsicherheit logischer Aussagen erfüllt.
Jedes andere Maß für die Unsicherheit einer Wahrscheinlichkeitsverteilung, das sich von der Entropie unterscheidet, müsste gegen eines oder mehrere der Kriterien verstoßen, die zur Definition der Entropie herangezogen werden (andernfalls wäre es notwendigerweise Entropie). Wenn Sie also eine allgemeine Aussage hinsichtlich der Wahrscheinlichkeit hätten, dass Sie auf irgendeine Weise die gleichen Ergebnisse wie die maximale Entropie erzielen würden ... dann wäre es die maximale Entropie!
Das Nächste, was ich bisher zu einer Wahrscheinlichkeitsaussage über maximale Entropieverteilungen finden kann, ist Jaynes 'Konzentrationssatz . Sie finden es klar erklärt in Kapur und Kesavan (1992). Hier ist eine lockere Wiederholung:
ET Jaynes (2003) Wahrscheinlichkeitstheorie: Die Logik der Wissenschaft. Cambridge University Press.
JN Kapur und .K. Kesavan (1992) Entropy Optimization Principles with Applications. Academic Press, Inc.
quelle
Ich habe die Auswirkungen noch nicht untersucht und bin mir auch nicht sicher, ob ich sie vollständig verstehe.
[Bearbeiten: Tippfehler behoben]
quelle