Wie genau definieren (oder interpretieren?) Bayesianer die Wahrscheinlichkeit?

9

Teil einer Reihe von Versuchen, Bayesian gegen Frequentist zu verstehen: 1 2 3 4 5 6 7

Ich glaube, ich verstehe, wie Bayesianer und Frequentisten zwischen Hypothesen wählen , aber ich bin mir nicht ganz sicher, ob oder wie mir das erklären soll, wie sie die Wahrscheinlichkeit sehen.

Nach meinem Verständnis "definiert" ein Frequentist laut Wiki die Wahrscheinlichkeit wie folgt:

Gegebener Wahrscheinlichkeitsraum , , , Dabei ist die Anzahl der durchgeführten Versuche und die mit der A in diesen Versuchen aufgetreten ist.(Ω,F,P)AFP(A)nAntntnA

Außerdem ist .P(A)=limntnAnt

Okay, wie definieren Bayesianer die Wahrscheinlichkeit? Das Obige scheint ein Ansatz zur Berechnung der Wahrscheinlichkeit eines Ereignisses zusätzlich zur Definition einer Wahrscheinlichkeit zu sein.

Bayesianer scheinen eine vorherige Wahrscheinlichkeit anzunehmen, einige Versuche durchzuführen und dann ihre Wahrscheinlichkeit zu aktualisieren, aber das scheint nicht wirklich zu erklären, wie sie die Wahrscheinlichkeit definieren.

Im Wiki heißt es: "Die Bayes'sche Wahrscheinlichkeit ist eine Größe, die wir zuweisen, um einen Wissenszustand oder einen Glaubenszustand darzustellen."

Was genau bedeutet das? Ist Staat gleichbedeutend mit Grad? Zum Beispiel wird Walters Glaubenszustand, dass eine bestimmte Münze fair ist, mit der Zahl 0,1 dargestellt, während Jesses Glaubenszustand, dass dieselbe Münze fair ist, mit der Zahl 0,2 dargestellt wird. Angesichts neuer Informationen könnte Walters Glaubenszustand 0,96 betragen, während Jesses Glaubenszustand 0,03 betragen könnte. Also war Walter anfangs weniger geneigt zu glauben, dass die Münze fair ist, aber später war Jesse eher geneigt zu glauben, dass die Münze fair ist?

Ich hoffe auf etwas in Bezug auf Symbole wie das oben genannte Frequentist.

Auf derselben Wiki-Seite heißt es: "Die Bayes'sche Interpretation der Wahrscheinlichkeit kann als Erweiterung der Aussagenlogik angesehen werden, die das Denken mit Hypothesen ermöglicht, dh mit Aussagen, deren Wahrheit oder Falschheit ungewiss ist. ' Boolesche Logik.

BCLC
quelle
12
Sowohl Frequentisten als auch Bayesianer verwenden dieselbe Definition der Wahrscheinlichkeit, nämlich diejenige, die auf Kolmogorovs Wahrscheinlichkeitsaxiomen basiert, dh die Wahrscheinlichkeit als endliches Maß. Der Unterschied zwischen Bayesianern und Frequentisten hängt also nicht mit der Definition der Wahrscheinlichkeit zusammen, sondern damit, wie sie dieses Konzept mit Daten verknüpfen.
Michael M
1
@MichaelM Hätte ich eher "interpretieren" als "definieren" sagen sollen?
BCLC
1
@BCLC, ich habe Ihnen ein Lob für Ihre Frage gegeben, aber nachdem ich die Antwort nicht vollständig geklärt hatte, fand ich den ersten Eintrag in der Spalte "Verwandte" sehr nützlich.
Antoni Parellada
@ AntoniParellada Danke. Du meinst das? . Es gesehen haben. Ich weiß nicht was 'Im Bayes'schen Ansatz interpretieren wir Wahrscheinlichkeitsverteilungen als Quantifizierung unserer Unsicherheit über die Welt. bedeutet daher diese Frage. Oder meinst du das? Wie hilft dies bei der Beantwortung meiner Frage?
BCLC
1
@MichaelM: Aber siehe Akzeptieren Bayesianer Kolmogorov-Axiome? .
Scortchi - Monica wieder einsetzen

Antworten:

8

Ich glaube, dass die meisten "Frequentisten" und "Bayesianer" die Wahrscheinlichkeit auf dieselbe Weise rigoros definieren würden: Modulieren Sie über Kolmogorovs Axiome und Maßtheorie einige Fragen zu endlicher und zählbarer Additivität , je nachdem, mit wem Sie sprechen. In Bezug auf "Symbole" werden Sie wahrscheinlich mehr oder weniger die gleiche Definition auf der ganzen Linie finden. Alle sind sich einig, wie sich Wahrscheinlichkeiten verhalten .

Ich würde sagen , der Hauptunterschied liegt in der Interpretation dessen , was Wahrscheinlichkeiten sind . Meine (ironische, militante Bayesianische) bevorzugte Interpretation ist, dass Wahrscheinlichkeiten kohärente Darstellungen von Informationen über Ereignisse sind .

"Kohärent" hat hier eine technische Bedeutung: Wenn ich meine Informationen über die Welt in Bezug auf Wahrscheinlichkeiten darstelle und diese Wahrscheinlichkeiten dann verwende, um meine Wetten auf das Auftreten oder Nichtauftreten eines bestimmten Ereignisses zu bewerten, kann ich sicher sein, dass ich dies nicht kann von Agenten, die gegen mich wetten , zu einem sicheren Verlierer gemacht werden.

Beachten Sie, dass dies keine Vorstellung von einer „langfristigen relativen Häufigkeit“ beinhaltet. In der Tat kann ich meine Informationen über ein einmaliges Ereignis - wie die morgen explodierende Sonne - über die Sprache der Wahrscheinlichkeit kohärent darstellen. Andererseits scheint es schwieriger (oder weniger natürlich) zu sein, über das Ereignis "Die Sonne wird morgen explodieren" in Bezug auf die langfristige relative Häufigkeit zu sprechen.

Für einen tiefen Einblick in diese Frage verweise ich Sie auf das erste Kapitel von Jay Kadanes hervorragenden (und freien) Prinzipien der Unsicherheit .

UPDATE : Ich habe einen relativ informellen Blog-Beitrag geschrieben , der die Kohärenz veranschaulicht.

jtobin
quelle
"Wenn Sie Mitglied der allgemeinen Öffentlichkeit sind: Die Tatsache, dass Sie diese Seite sehen, weist darauf hin, dass auf der gerade besuchten Website entweder Probleme auftreten oder eine routinemäßige Wartung durchgeführt wird." -> Vielleicht später dann. Vielen Dank
BCLC
@BCLC Ist das für den PoU-Link? Es funktioniert für mich.
Jtobin
1
(+1) Sehr klare Darstellung. @BCLC: Siehe Savage (1954), The Foundations of Statistics für einen axiomatischen Ansatz. Das Wesentliche ist, dass, wenn Sie den Grad des Glaubens darstellen und auf Vergleichbarkeit bestehen möchten (für alle Aussagen und Sie sagen, dass Sie mehr als das andere glauben oder beide gleichermaßen) und Kohärenz (wie oben erläutert), es sich herausstellt müssen eine Wahrscheinlichkeit verwenden - dh eine reelle Zahl, die Kolmogorovs Axiomen subjektiv ist (Bar eins vielleicht). B.AB
Scortchi - Monica wieder einsetzen
Ich bin mir sicher, dass es eine gute Erklärung dafür gibt, wie Bayes'sche Wahrscheinlichkeiten keine niederländischen Bücher zulassen, aber ich sehe den Zusammenhang nicht sofort, daher habe ich Probleme zu sagen, dass dies eine klare Erklärung dafür ist, wie Bayesianer Wahrscheinlichkeit sehen. Und wenn die Informationen, die ein Agent gegen Sie hat, asymmetrisch sind, müssen Sie in der Lage sein, ein sicherer Verlierer zu werden? Vielleicht impliziert diese Frage, was ich nicht verstehe ...
Cliff AB
7

Wie bereits von anderen erwähnt, gibt es keine spezifische Bayes'sche Definition der Wahrscheinlichkeit. Es gibt nur einen Weg, die Wahrscheinlichkeit zu definieren, dh es ist eine reelle Zahl, die einem Ereignis durch ein Wahrscheinlichkeitsmaß zugewiesen wird, das den Axiomen der Wahrscheinlichkeit folgt . Wenn es unterschiedliche Definitionen von Wahrscheinlichkeit gäbe, könnten wir sie nicht konsequent verwenden, da unterschiedliche Menschen unterschiedliche Dinge dahinter verstehen würden.

Während es nur einen Weg gibt, wie wir es definieren , gibt es mehrere Wege, die Wahrscheinlichkeit zu interpretieren . Wahrscheinlichkeit ist ein mathematisches Konzept, das ohnehin nicht mit der realen Welt zusammenhängt (zitiert de Finetti, "Wahrscheinlichkeit existiert nicht"). Um es auf die reale Welt anzuwenden, müssen wir die Mathematik in reale Ereignisse übersetzen oder interpretieren. Es gibt mehrere verschiedene Möglichkeiten, die Wahrscheinlichkeit zu interpretieren, sogar unterschiedliche Interpretationen unter Bayesianern ( eine Übersicht finden Sie unter Interpretationen der Wahrscheinlichkeit in der Stanford Encyclopedia of Philosophy ). Diejenige, die am häufigsten mit der Bayes'schen Statistik in Verbindung gebracht wird, ist die subjektivistische Sichtweise, die auch als personalistische Wahrscheinlichkeit bezeichnet wird .

Aus subjektivistischer Sicht ist Wahrscheinlichkeit ein Grad an Glauben oder ein Grad an Bestätigung . Es misst, wie sehr jemand etwas für glaubwürdig hält. Es kann am deutlichsten im Hinblick auf das Wettverhalten analysiert oder beobachtet werden (de Finetti, 1937; siehe auch Savage, 1976; Kemeny, 1955):

Nehmen wir an, ein Individuum ist verpflichtet, die Rate mit der es bereit wäre, den Besitz einer beliebigen Summe (positiv oder negativ) abhängig vom Auftreten eines bestimmten Ereignisses gegen den Besitz der Summe auszutauschen, zu bewerten ;; wir werden per Definition sagen, dass diese Zahl das Maß für den Grad der Wahrscheinlichkeit ist, der von dem dem Ereignis betrachteten Individuum zugeschrieben wird , oder einfacher gesagt, dass die Wahrscheinlichkeit von (gemäß dem betrachteten Individuum kann diese Spezifikation sein implizit, wenn keine Mehrdeutigkeit vorliegt).pSEpSpEpE

Wetten ist eine der Situationen, in denen man quantifizieren muss, wie "wahrscheinlich" er glaubt, dass etwas ist, und das Maß für einen solchen Glauben ist eindeutig eine Wahrscheinlichkeit. Übersetzen eines solchen Glaubens in Zahlen, am wenigsten in ein Maß für den Glauben, dh in die Wahrscheinlichkeit.

Bruno de Finetti, eine der Hauptfiguren unter den Subjektivisten, stellt fest, dass die subjektivistische Sichtweise mit den Axiomen der Wahrscheinlichkeit übereinstimmt und diesen folgen muss:

Wenn wir nur anerkennen, dass uns zuerst ein ungewisses Ereignis nur (a) gleich wahrscheinlich, (b) wahrscheinlicher oder (c) weniger wahrscheinlich als ein anderes erscheinen kann; zweitens, dass uns ein ungewisses Ereignis immer wahrscheinlicher erscheint als ein unmögliches Ereignis und weniger wahrscheinlich als ein notwendiges Ereignis; und schließlich, drittens , dass , wenn wir ein Ereignis beurteilen wahrscheinlicher dann Ereignis , die selbst wahrscheinlicher dann ein Ereignis , dann Ereignis erscheint nur wahrscheinlicher , dannEEEEE (transitive Eigenschaft) genügt es, drei offensichtlich triviale Axiome um ein viertes zu ergänzen, das selbst rein qualitativer Natur ist, um die gesamte Wahrscheinlichkeitstheorie rigoros zu konstruieren. Das vierte Axiom besagt, dass Ungleichungen in logischen Summen erhalten bleiben: Wenn mit und mit kompatibel ist , ist oder mehr oder weniger wahrscheinlich als oder , oder sie sind je nach Ort gleich wahrscheinlich ist mehr oder weniger wahrscheinlich als , oder sie sind gleich wahrscheinlich. Allgemeiner kann daraus abgeleitet werden, dass zwei Ungleichungen, wie zEE1E2E1EE2EE1E2

E1 is more probable then E2,E1 is moreprobable then E2,

kann hinzugefügt werden, um zu geben

E1E1 is more probable then E2E2

vorausgesetzt, die hinzugefügten Ereignisse sind nicht miteinander kompatibel ( mit , mit ).E1E1E2E2

Ähnliche Punkte werden von mehreren verschiedenen Autoren gemacht, wie Kemeny (1955) oder Savage (1972), die wie de Finetti Verbindungen zwischen den Axiomen und der subjektivistischen Sicht der Wahrscheinlichkeit ziehen. Sie zeigen auch, dass ein solches Maß an Glauben mit den Axiomen der Wahrscheinlichkeit übereinstimmen muss (wenn es also wie eine Wahrscheinlichkeit aussieht und wie eine Wahrscheinlichkeit quakt ...). Darüber hinaus zeigt Cox (1946), dass Wahrscheinlichkeit als Erweiterung der formalen Logik gedacht werden kann, die über binäres Wahr und Falsch hinausgeht und Unsicherheiten berücksichtigt.

Wie Sie sehen, hat dies nichts mit Frequenzen zu tun. Wenn Sie beobachten, dass Nikotinraucher häufiger an Krebs sterben als Nichtraucher, würden Sie rational davon ausgehen, dass ein solcher Tod für einen Raucher glaubwürdiger ist, sodass die Frequenzinterpretation nicht der subjektivistischen Ansicht widerspricht. Was eine solche Interpretation attraktiv macht, ist, dass sie auch auf Fälle angewendet werden kann, die nichts mit Frequenzen zu tun haben (z. B. die Wahrscheinlichkeit, dass Donald Trump die US-Präsidentschaftswahlen 2016 gewinnt, die Wahrscheinlichkeit, dass es neben uns noch andere intelligente Lebensformen gibt) ). Wenn Sie eine subjektivistische Sichtweise einnehmen, können Sie solche Fälle auf probabilistische Weise betrachten und statistische Modelle solcher Szenarien erstellen (siehe Beispiel für eine Wahlprognose von FiveThirtyEight)Dies steht im Einklang mit dem Gedanken an die Wahrscheinlichkeit als Maß für den Grad des Glaubens auf der Grundlage der verfügbaren Beweise. Dies macht eine solche Interpretation sehr breit (manche sagen zu breit), so dass wir das probabilistische Denken flexibel an verschiedene Probleme anpassen können. Ja, es ist subjektiv, aber de Finetti (1931) stellt fest, dass die Definition des Frequentismus auf mehreren unrealistischen Annahmen beruht und sie nicht "rationaler" interpretiert.


de Finetti, B. (1937/1980). La Prévision: Ses Lois Logiques, Ses Sources Subjectives. [ Voraussicht. Seine logischen Gesetze, seine subjektiven Quellen. ] Annales de l'Institut Henri Poincaré, 7, 1-68.

Kemeny, J. (1955). Faire Wetten und induktive Wahrscheinlichkeiten. Journal of Symbolic Logic, 20, 263 & ndash; 273.

Savage, LJ (1972). Die Grundlagen der Statistik . Dover.

Cox, RT (1946). Wahrscheinlichkeit, Häufigkeit und angemessene Erwartung. American Journal of Physics, 14 (1), 1-13.

de Finetti, B. (1931/1989). "Probabilismus: Ein kritischer Aufsatz über die Wahrscheinlichkeitstheorie und den Wert der Wissenschaft". Erkenntnis, 31, 169 & ndash; 223.

Tim
quelle
+1 Sehr schöne Antwort (irgendwie habe ich sie vorher nicht gesehen) und die Referenzen sind gut.
Amöbe
2

Ich werde versuchen, mit meiner Terminologie unglaublich klar zu sein. Wie Sie konzentrieren wir uns auf eine Münze, , also .XBernoulli(p)Pr(X=1)=p

Bayesianer und Frequentisten betrachten als Zufallsvariable und teilen die gleichen Ansichten über die Wahrscheinlichkeitsverteilung . Bayesianer verwenden jedoch auch Wahrscheinlichkeitsverteilungen, um ihre Unsicherheit über einen festen Parameter zu modellieren, in diesem Fall .XPr(X)p

Wenn wir nun und , wie Sie betont habenx1,x2,Bernoulli(p)hn=i=1nxi

limnhnn=p.

Dies ist relevant, da die MLE für . Beachten Sie jedoch, dass für alle positiven Zahlen (tatsächlich müssen sie nicht einmal positiv sein):hn/npa,b

limnhn+an+a+b=p.

Ein Nachteil des Schätzers ist, dass dies für kleines verrückt sein könnte. Das extremste Beispiel dafür ist , wenn , unsere Schätzung von sein wird oder . Was ist, wenn wir und die zweite Schätzung verwenden ? Wenn wir beim ersten Flip eine unsere aktualisierte Schätzung , größer als aber nicht so extrem wie .hn/nnn=1p01a=b=516/1150%1

Diese zurückhaltendere Schätzung kann leicht abgeleitet werden, indem unsere Unsicherheit über in Form einer vorherigen (und schließlich hinteren) Verteilung ausgedrückt wird. Wenn Sie dieses Beispiel genauer betrachten möchten, wird es als Beta-Binomial bezeichnet . Es geht darum, eine Beta vor den Parameter einer Binomialverteilung zu stellen und die Erwartung des resultierenden Seitenzahns zu berücksichtigen.p

jlimahaverford
quelle
Bayesianer interpretieren Wahrscheinlichkeit also als Grenze eines MLE? Ist diese erste Grenzwertaussage auch auf und eines der Gesetze großer Zahlen zurückzuführen ? E(X)=P(X=1)=p
BCLC
Dies beantwortet nicht die gestellte Frage ... Bei dieser Antwort geht es mehr um die Verwendung von Priors und Bayes'schen Inferenz, nicht darum, wie die Wahrscheinlichkeit definiert ist.
Tim
@ Tim Ich dachte, dass diese erste Limit-Anweisung die Antwort ist?
BCLC
@ Tim Vielleicht sollten Sie sagen, wie Wahrscheinlichkeit interpretiert wird ...
BCLC
Ich habe versucht zu erklären und ein Beispiel dafür zu geben, dass die Wahrscheinlichkeit auf dieselbe Weise definiert, aber unterschiedlich verwendet wird.
jlimahaverford