Wie aktualisiert ein Bayesianer seinen Glauben, wenn etwas mit der Wahrscheinlichkeit 0 passiert ist?

Definiere "Münze hat die Wahrscheinlichkeit 1, Köpfe zu landen" Angenommen, man hat den vorherigen Glauben: . Nach dem Werfen der Münze, sobald sie Schwänze landet ( "Münze gelandet Schwänze"). Wie sollte ein Bayesianer seine Überzeugungen aktualisieren, um kohärent zu bleiben? ist undefiniert, da . Es scheint mir jedoch, dass er, da seine früheren Überzeugungen ziemlich unplausibel sind (natürlich bedeutet Wahrscheinlichkeit 0 nicht unmöglich), in der Lage sein sollte, seine Überzeugung gemäß einer Regel zu aktualisieren. $X:=$ $P(X)= 1$ $E:=$ $P(X|E)$ $P(E) = 0$

Ist dies nur ein pathologischer Fall, in dem die Bayes'sche Aktualisierung nicht funktioniert, oder ist mir keine Lösung für dieses Problem bekannt?

probability bayesian philosophical Sebastian
quelle

Ein Beispiel könnte sein, dass er erkennt, dass er eine Frau ist.

Nick Cox

Ich denke, diese Frage ist weitaus umfassender als die Bayes'sche Analyse. Ist es nicht wirklich die Frage, was man angesichts der Beweise tun soll, dass seine Annahmen falsch sind? Ich würde zögern, diese Situationen als "pathologisch" zu bezeichnen, da sie ständig auftreten. Was wirklich pathologisch wäre, sind Situationen, in denen sich Menschen weigern, ihre Annahmen (oder Überzeugungen) angesichts unbestreitbarer Beweise zu ändern. (Solche Leute werden normalerweise eher "Politiker" als "Bayesianer" genannt :-).)

whuber

@whuber Ich bin alles dafür, Spaß zu haben und (die falsche Art von) Politikern zu verachten, aber die Wissenschaft ist auch nicht immun. Planck bemerkte in seiner Autobiographie, dass eine neue Theorie manchmal nur dann triumphiert, wenn die ältere Generation, die sich weigerte, sie ernst zu nehmen, alle ausgestorben ist.

Nick Cox

@ Nick Ich bin sicher, Sie verstehen, dass die Situation in der Wissenschaft komplexer ist. (Ja, die Situation in der Politik ist auch komplexer ...) Vor einem halben Jahrhundert gehörte Thomas Kuhn zu den Ersten, die dies schätzten und die tieferen Gründe erläuterten.

whuber

@ Whuber Einverstanden. Gute Wissenschaftler ändern ihre Meinung angesichts von Logik und Beweisen schnell, und viele von uns werfen viele miese Ideen weg, bevor sie überhaupt versuchen, mit ihnen an die Öffentlichkeit zu gehen. (Kleinstes Detail: Es war Kuhns berühmtestes Buch, in dem ich zum ersten Mal auf die Planck-Referenz gestoßen bin.)

Nick Cox

Antworten:

In diesem Fall gilt jede hintere Wahrscheinlichkeit

Dies ist eine interessante Frage, die in das Gebiet der Wahrscheinlichkeitsgrundlagen gelangt. Hier gibt es einige mögliche Ansätze, aber aus Gründen, auf die ich bald näher eingehen werde, ist der von mir bevorzugte Ansatz, eine breitere Definition der bedingten Wahrscheinlichkeit zu geben, die analog zu ihrer Definition beim Umgang mit kontinuierlichen Zufallsvariablen ist. (Details dieser Methode sind unten gezeigt.) In diesem speziellen Fall führt dies zu der Schlussfolgerung, dass der Bayesianer jeden hinteren Glauben an , und dies ergibt einen kohärenten Satz von Überzeugungen (ungeachtet dessen, dass sie ein Ereignis beobachtet haben, an das sie glauben Wahrscheinlichkeit Null haben). $X$

Der Vorteil dieses Ansatzes besteht darin, dass er eine genau definierte posteriore Verteilung ergibt und es den Bayesianern ermöglicht, ihre Überzeugungen unter der Bedingung zu aktualisieren, dass ein Ereignis beobachtet wird, dessen Auftreten mit der Wahrscheinlichkeit Null festgelegt wurde. Der hintere Teil wird im Wesentlichen willkürlich aktualisiert (jede hintere Wahrscheinlichkeit ist gleichermaßen kohärent), aber diese Flexibilität ist angesichts der aufgetretenen Ereignisse nicht überraschend. In diesem Fall könnten verschiedene Bayesianer mit denselben früheren Überzeugungen zu unterschiedlichen Schlussfolgerungen kommen, da sie alle ein Ereignis mit einer Wahrscheinlichkeit von null a priori beobachtet haben .

Bedingte Wahrscheinlichkeit für kontinuierliche Zufallsvariablen: Wenn es sich um kontinuierliche Zufallsvariablen handelt, wird die bedingte Wahrscheinlichkeitsfunktion durch die Radon-Nikodym-Ableitung definiert und erfordert im Wesentlichen nur, dass die Funktion das Gesetz der gemeinsamen Wahrscheinlichkeit erfüllt. Wenn und kontinuierliche Zufallsvariablen (anstelle von diskreten Ereignissen) in einem Wahrscheinlichkeitsraum wären, würden wir die bedingte Wahrscheinlichkeitsfunktion als jede nicht negativ messbare definieren Funktion, die die Integralgleichung erfüllt: $X$ $E$ $(\Omega, \mathscr{G}, P)$ $p(x|e)$

p (x) = \int_{E} p (x | e) d P (e) for all x \in X \in G .

$p(x) = \int \limits_\mathscr{E} p(x|e) \ dP(e) \quad \quad \quad \text{for all } x \in \mathscr{X} \in \mathscr{G}.$

Da auch über das Radon-Nikodym-Derivat definiert wird, bedeutet dies implizit, dass jede nicht negative messbare Funktion sein kann, die die Integralgleichung erfüllt: $p(x)$ $p(x|e)$

P (X \in A) = \int_{A} \int_{E} p (x | e) d P (e) d x for all A \in G .

$\mathbb{P}(X \in \mathcal{A}) = \int \limits_\mathcal{A} \int \limits_\mathscr{E} p(x|e) \ dP(e) \ dx \quad \quad \quad \text{for all } \mathcal{A} \in \mathscr{G}.$

Dies ergibt eine nicht eindeutige Lösung für die bedingte Wahrscheinlichkeitsfunktion, obwohl in der Praxis jede Lösung "fast sicher" äquivalent ist (dh sie unterscheiden sich nur bei einer Reihe von Ergebnissen mit der Wahrscheinlichkeit Null), so dass es kein Problem mit der Nicht-Eindeutigkeit gibt .

Definieren der bedingten Wahrscheinlichkeit für diskrete Ereignisse: Die Standarddefinition für die bedingte Wahrscheinlichkeit für diskrete Ereignisse ist die bekannte Verhältnisformel, wobei der Nenner die Wahrscheinlichkeit des konditionierenden Ereignisses ist. In dem Fall, in dem das Konditionierungsereignis eine Wahrscheinlichkeit von Null hat, ist dieses Objekt offensichtlich undefiniert. Die naheliegende Lösung besteht darin, die Definition analog zu der im kontinuierlichen Fall verwendeten Methode zu erweitern. Das heißt, wir definieren das bedingte Wahrscheinlichkeitspaar und als jedes Wertepaar zwischen Null und Eins, das die Gleichung erfüllt: $\mathbb{P}(X|E)$ $\mathbb{P}(X|\bar{E})$

P (X) = P (X | E) \times P (E) + P (X | \bar{E}) \times (1 - P (E)) .

$\mathbb{P}(X) = \mathbb{P}(X|E) \times \mathbb{P}(E) + \mathbb{P}(X|\bar{E}) \times (1-\mathbb{P}(E)).$

In dem in der Frage angegebenen Fall haben wir die vorherige Annahme und die Stichprobenverteilung , was zu . Das Einsetzen dieser Werte in die obige Gleichung ergibt: $\mathbb{P}(X) = 1$ $\mathbb{P}(E|X) = 0$ $\mathbb{P}(E) = 0$

1 = P (X | E) \times 0 + P (X | \bar{E}) \times 1.

$1 = \mathbb{P}(X|E) \times 0 + \mathbb{P}(X|\bar{E}) \times 1.$

Wir können sehen, dass diese Gleichung erfüllt ist, indem wir und eine beliebige . Somit kann die (hintere) bedingte Wahrscheinlichkeit kohärent ein beliebiger Wert zwischen Null und Eins sein. Wenn wir sagen, dass dies "kohärent" ist, meinen wir einfach, dass die hintere Wahrscheinlichkeit nicht mit den anderen im Problem festgelegten Wahrscheinlichkeiten (dh den vorherigen und den Stichprobenwahrscheinlichkeiten) unvereinbar ist. $\mathbb{P}(X|\bar{E}) = 1$ $0 \leqslant \mathbb{P}(X|E) \leqslant 1$ $\mathbb{P}(X|E)$

Warum dieser Ansatz am sinnvollsten ist: Es ist durchaus möglich, dass eine Bayes'sche Analyse die Beobachtung eines diskreten Ereignisses beinhaltet, für das in der vorherigen Verteilung eine Wahrscheinlichkeit von Null festgelegt wurde. Zum Beispiel legen wir in einem Standardmodell des Münzwurfs eine Bernoulli-Verteilung für das Ergebnis von Kopf / Zahl fest, aber es ist möglich, dass die Münze an ihrem Rand zur Ruhe kommt (also weder Kopf noch Zahl). Das Gehirn sollte in diesem Fall nicht explodieren, und daher obliegt es der Bayes'schen Argumentation, in diesem Fall eine genau definierte Vorgehensweise zu haben.

Der Hauptvorteil des von mir skizzierten Ansatzes besteht darin, dass er immer zu mindestens einem zulässigen Wert für die hintere Wahrscheinlichkeit führt (dh die hintere Wahrscheinlichkeit ist genau definiert ). Die hintere Wahrscheinlichkeit ist nicht eindeutig definiert, aber das ist ein natürlicher Ableger der Tatsache, dass es mehrere Werte gibt, die mit der Stichprobenbeobachtung mit Nullwahrscheinlichkeit gleichermaßen kohärent sind. Dieser Ansatz bedeutet, dass der Bayesianer frei ist, eine hintere Wahrscheinlichkeit festzulegen, und dies ist genauso kohärent wie jeder andere. (Denken Sie daran, dass wir, wenn wir hier "kohärent" sagen, von Kohärenz mit einer vorherigen Überzeugung sprechen, die eine Nullwahrscheinlichkeit für ein diskretes Ereignis festlegt, das tatsächlich stattgefunden hat. Die Kohärenz damit ist also keine hohe Messlatte!)

Dieser Ansatz hat einen weiteren großen Vorteil : Er ermöglicht es dem Bayesianer, seine Überzeugungen als Reaktion auf die Beobachtung eines Ereignisses zu aktualisieren, bei dem unter dem Vorgänger keine Stichprobenwahrscheinlichkeit bestand, und insbesondere kann der Bayesianer nun seine Überzeugungen überarbeiten damit sie diesem Ereignis keine Wahrscheinlichkeit mehr von Null zuschreiben . In dem Beispiel, das Sie geben, hatte der Bayesianer zuvor die Überzeugung, dass fast sicher wahr ist. Kaufen Sie dann ein Ereignis mit einer Stichprobenwahrscheinlichkeit von Null, das von diesem Ereignis abhängig ist. Jetzt kann der Bayesianer seine Überzeugung auf eine hintere Wahrscheinlichkeit für aktualisieren , die keine ist (und somit eine entsprechende hintere Wahrscheinlichkeit für $X$ $X$ $\bar{X}$ das ist nicht Null). Im Wesentlichen kann der Bayesianer jetzt sagen: "Oh Scheiße! Das war ein dummer Prior! Lassen Sie mich meinen Glauben an dieses Ereignis so aktualisieren, dass es mit ziemlicher Sicherheit nicht mehr auftritt!" Darüber hinaus handelt es sich nicht um eine Ad-hoc- Änderung, sondern um eine legitime "kohärente" Aktualisierung nach dem Bayes-Theorem.

Ben - Monica wieder einsetzen
quelle

Es gibt eine implizite Annahme in allen Überlegungen, ob Bayesianisch oder auf andere Weise, dass wir alles wissen, was passieren könnte, und dies erklären. Wenn etwas passiert, was unter dem Modell unmöglich ist, bedeutet dies nur, dass diese Annahme falsch ist. Das Prinzip ist, zurück zu gehen und das Modell zu erweitern und von vorne zu beginnen. Zumindest in einem Bayes'schen Rahmen ist dieser Prozess relativ einfach zu formalisieren - anstatt in einem einzelnen Modell zu schließen, würde man in einer Reihe von Modellen schließen.

Irgendwann muss unsere menschliche Fähigkeit, Modelle in Modellen zu verschachteln, ausgehen. Selbst mit automatisierter Hilfe (dh Computern oder was auch immer) muss die Komplexität der "Mutter aller Modelle" begrenzt sein. Ich habe keine Ahnung, was ich unter diesen Umständen tun soll, aber wir sind sicherlich sehr weit davon entfernt, wenn wir mit typischen parametrischen Modellen arbeiten, die in Anwendungen zu finden sind.

Robert Dodier
quelle

Dies hängt mit dem Bereich der Logik zusammen. Insbesondere impliziert eine falsche Aussage alle anderen Aussagen, wahr oder falsch. In Ihrem Szenario ist eine falsche statement.This Mittel können wir schreiben für einen anderen Satz . Zum Beispiel haben wir (es impliziert Schwänze) und (es impliziert auch nicht Schwänze)! $X$ $X\implies S$ $S$ $X\implies E$ $X\implies E^c$

Dies stimmt auch mit Bens Lösung überein (stellen Sie den Posterior auf einen beliebigen Wert ein). Offensichtlich ist dies in Anwendungen jedoch nicht wirklich nützlich. Denn ich bin ziemlich zuversichtlich, keinen mathematischen Rahmen zu benötigen, um die gewünschten Ergebnisse zu erzielen.

Was es bedeutet, ist, dass man bekannte falsche Aussagen nicht in ihre vorherigen Wahrscheinlichkeiten aufnehmen sollte. Dies ist genau das gleiche, wie man keine falschen Aussagen über die Daten verwenden sollte. In Bezug auf die Behandlung von Problemen vom Typ "Schwarzer Schwan" können wir dies konzeptionell behandeln, indem wir eine winzige, aber nicht Null-Chance zuweisen, dass unsere "Arbeitsannahmen" falsch sind. Wenn Sie diese Anweisung als "meine Arbeitsannahmen sind korrekt" bezeichnen und sie vor . Unter der Arbeitsannahme gibt es einige unmögliche Situationen, was bedeutet, dass die Wahrscheinlichkeit für einige Werte der "Daten" , die in der "unmöglichen" Region $A_w$ $p(A_w)=1-\epsilon$ $p(d\in D_{impossible}|A_w)=0$ $d$ $D_{impossible}$ wenn die Arbeitsannahmen gelten. Nennen Sie dieses Ereignis . Dies bedeutet auch, dass . Wir nehmen an, dass (dh "unmögliche" Daten sind möglich, wenn die Arbeitsannahme falsch ist). Und schließlich ist . $Q:=d\in D_{impossible}$ $p(Q^c|A_w)=1-p(Q|A_w)=1$ $p(Q|A_w^c)=\delta>0$ $p(Q^c|A_w^c)=1-p(Q|A_w^c)=1-\delta$

Jetzt haben wir zwei Szenarien. Das erste ist, dass die Daten "normal" sind (was bedeutet, dass wahr ist) $Q^c$

p (A_{w} | Q^{c}) = \frac{p (A_{w}) p (Q^{c} | A_{w})}{p (A_{w}) p (Q^{c} | A_{w}) + p (A_{w}^{c}) p (Q^{c} | A_{w}^{c})} = \frac{1 - ϵ}{1 - ϵ + ϵ (1 - δ)} = \frac{1 - ϵ}{1 - δ ϵ} > 1 - ϵ

$p(A_w|Q^c)= \frac{p(A_w)p(Q^c|A_w)}{p(A_w)p(Q^c|A_w)+p(A_w^c)p(Q^c|A_w^c)}= \frac{1-\epsilon}{1-\epsilon+\epsilon(1-\delta)}=\frac{1-\epsilon}{1-\delta \epsilon} > 1-\epsilon$

Das zweite ist, dass die Daten "unmöglich" sind (was bedeutet, dass wahr ist) $Q$

p (A_{w} | Q) = \frac{p (A_{w}) p (Q | A_{w})}{p (A_{w}) p (Q | A_{w}) + p (A_{w}^{c}) p (Q | A_{w}^{c})} = \frac{0}{0 + ϵ δ} = 0.

$p(A_w|Q)= \frac{p(A_w)p(Q|A_w)}{p(A_w)p(Q|A_w)+p(A_w^c)p(Q|A_w^c)}=\frac{0}{0+\epsilon\delta}=0.$

Hoffentlich zeigt dies sehr deutlich, dass, wenn Ihre Annahmen erfüllt sind und Sie bereits eine sehr hohe vorherige Wahrscheinlichkeit hatten, der hintere mindestens genauso hoch (und oft höher) ist. Unabhängig davon, welchen Wert für Sie verwenden, um "im Grunde unmöglich" darzustellen, bevor Sie die Daten sehen, sollten Sie einen Wert verwenden, der kleiner ist, nachdem die Vorhersagen bestätigt wurden. $\epsilon$

Wenn Sie Berechnungen durchführen und werden Sie nicht in die Irre geführt. Sie "absorbieren" also in die vorherigen Informationen $p(A_w|Q^c)=1$ $A_w,Q^c$

Was ist nun, wenn das Unmögliche passiert? Nun, dann müssen Sie Ihre Wahrscheinlichkeit und vorher auspacken und ändern, je nachdem, was mit Ihrer Annahme falsch war.

Wahrscheinlichkeitslogik
quelle

Dies ist eine interessante Antwort (+1). Ich habe mir erlaubt, eine kleine Korrektur vorzunehmen, um den Fall zu berücksichtigen, in dem , was in Ihren vorherigen Bedingungen nicht ausgeschlossen wurde. Wenn Sie die Einschränkung auferlegen , um eine strikte Ungleichung zu erhalten, bearbeiten Sie diese bitte entsprechend.

γ = 1

$\gamma = 1$

γ < 1

$\gamma < 1$

Ben - Monica

Ich erkannte, dass in meiner ursprünglichen Antwort. Als bedeutet dies, dass die Ungleichung streng sein sollte.

γ = 1 - δ

$\gamma=1-\delta$

δ > 0

$\delta>0$

Wahrscheinlichkeitslogik