Beta-Verteilung beim Werfen einer Münze

11

Kruschkes Bayesianisches Buch sagt über die Verwendung einer Beta-Distribution zum Werfen einer Münze:

Wenn wir zum Beispiel kein anderes Vorwissen haben als das Wissen, dass die Münze eine Kopf- und eine Schwanzseite hat, bedeutet dies, dass wir zuvor einen Kopf und einen Schwanz beobachtet haben, was a = 1 und b = 1 entspricht.

Warum wäre keine Information gleichbedeutend damit, einen Kopf und einen Schwanz gesehen zu haben - 0 Köpfe und 0 Schwänze scheinen mir natürlicher.

Hatschepsut
quelle
8
(+1) Das Zitat ist irreführend, weil es den Leser auffordert, zwei sehr unterschiedliche Sinne von "beobachten" gleichzusetzen. Der hier verwendete Sinn ist der, die Münze selbst inspiziert zu haben - im Endeffekt bedeutet dies, dass Sie den Versuchsaufbau verstehen. Die Schlussfolgerung, dass dies impliziert, hängt jedoch von der Neuinterpretation von "beobachten" in dem anderen Sinne ab, dass das Experiment zweimal durchgeführt wurde, wobei ein Ergebnis Kopf und Schwanz war. Diese Art von logischem Fingerspitzengefühl ist eine intellektuelle Ausrede; es lässt nur Bayes'sche Methoden willkürlich und logisch rutschig erscheinen, was schade ist. a=b=1
whuber
Das Zitat ist falsch: Es gibt keine Rechtfertigung für einen Prior von Beta (1, 1).
Neil G
Man könnte genauso gut argumentieren, dass es sich um Informationen einer einzelnen Beobachtung handelt - einen halben Kopf / einen halben Schwanz.
Glen_b -State Monica
4
Bitte beachten Sie den beabsichtigten Zweck dieser Passage im Buch. Es soll eine einfache intuitive Rechtfertigung für Anfänger sein , offensichtlich kein mathematisches Argument und definitiv keine Behauptung, dass Beta (1,1) der beste oder nur vage Prior ist. An anderer Stelle im Buch bemühe ich mich zu zeigen, dass bescheidene Variationen bei vagen Prioren keinen wesentlichen Unterschied im posterioren Bereich machen, wenn es eine mäßig große Datenmenge gibt. (Mit Ausnahme der Bayes-Faktoren, die sehr empfindlich auf den Prior reagieren!) In anderen Schriften habe ich den Haldane-Prior besprochen.
John K. Kruschke

Antworten:

16

Das Zitat ist ein "logisches Kunststück" (großartiger Ausdruck!), Wie @whuber in den Kommentaren zum OP feststellte. Das einzige, was wir wirklich sagen können, nachdem wir gesehen haben, dass die Münze einen Kopf und einen Schwanz hat, ist, dass beide Ereignisse "Kopf" und "Schwanz" nicht unmöglich sind. Somit könnten wir einen diskreten Prior verwerfen, der die gesamte Wahrscheinlichkeitsmasse auf "Kopf" oder "Schwanz" legt. Dies führt jedoch nicht von alleine zum Uniformprior: Die Frage ist viel subtiler. Lassen Sie uns zunächst ein wenig Hintergrundwissen zusammenfassen. Wir betrachten das Beta-Binominal-Konjugatmodell für die Bayes'sche Folgerung der Wahrscheinlichkeit von Münzköpfen bei n unabhängigen und identisch verteilten (bedingt durch θ ) Münzwürfen.θnθ wenn wir x Köpfe in n Würfen beobachten:p(θ|x)xn

p(θ|x)=Beta(x+α,nx+β)

Wir können sagen, dass und β die Rolle einer "vorherigen Anzahl von Köpfen" und einer "vorherigen Anzahl von Schwänzen" (Pseudotrials) spielen und α + β als effektive Stichprobengröße interpretiert werden kann. Wir könnten zu dieser Interpretation auch kommen, indem wir den bekannten Ausdruck für den hinteren Mittelwert als gewichteten Durchschnitt des vorherigen Mittelwerts α verwendenαβα+β und der Probenmittelwertxαα+β .xn

Wenn wir , können wir zwei Überlegungen anstellen:p(θ|x)

  1. Da wir keine Vorkenntnisse über (maximale Unwissenheit) haben, erwarten wir intuitiv, dass die effektive Stichprobengröße α + β "klein" ist. Wenn es groß wäre, würde der Prior ziemlich viel Wissen beinhalten. Eine andere Art, dies zu sehen, ist die Feststellung, dass, wenn α und β in Bezug auf x und n - x "klein" sind , die hintere Wahrscheinlichkeit nicht sehr von unserem Prior abhängt, da x + α x und n - x + β n - xθα+βαβxnxx+αxnx+βnx. Wir würden erwarten, dass ein Prior, der nicht viel Wissen enthält, angesichts einiger Daten schnell irrelevant werden muss.
  2. Auch da ist der vorherige Mittelwert, und wir haben keine Vorkenntnisse über die Verteilung von θ, wir würdenμprior=0,5erwarten. Dies ist ein Argument der Symmetrie - wenn wir es nicht besser wissen, würden wir nichta priorierwarten,dass die Verteilung gegen 0 oder gegen 1 verschoben ist. Die Beta-Verteilung istμprior=αα+βθμprior=0.5

    f(θ|α,β)=Γ(α+β)Γ(α)+Γ(β)θα1(1θ)β1

    Dieser Ausdruck ist nur um symmetrisch, wenn α = β .θ=0.5α=β

Aus diesen beiden Gründen erwarten wir intuitiv, dass und c "klein" ist , unabhängig davon, welches Prior (zur Beta-Familie gehörend - denken Sie daran, konjugiertes Modell!), Das wir verwenden . Wir können sehen, dass alle drei häufig verwendeten nicht informativen Prioritäten für das Beta-Binomial-Modell diese Merkmale gemeinsam haben, aber ansonsten sind sie sehr unterschiedlich. Und das ist offensichtlich: Kein Vorwissen oder "maximale Ignoranz" ist keine wissenschaftliche Definition. Welche Art von Prior "maximale Ignoranz" ausdrückt, dh was ein nicht informativer Prior ist, hängt davon ab, was Sie tatsächlich als "Maximum" meinen Ignoranz".α=β=cc

  1. wir könnten einen Prior wählen, der besagt, dass alle Werte für wahrscheinlich sind, da wir es nicht besser wissen. Wieder ein Symmetrieargument. Dies entspricht α = β = 1 :θα=β=1

    f(θ|1,1)=Γ(2)2Γ(1)θ0(1θ)0=1

    für , dh den von Kruschke verwendeten Uniformprior. Wenn Sie den Ausdruck für die differentielle Entropie der Beta-Verteilung ausschreiben, können Sie formal sehen, dass sie maximiert ist, wenn α = β = 1 ist . Jetzt wird Entropie oft als Maß für die "Informationsmenge" interpretiert, die von einer Verteilung getragen wird: Eine höhere Entropie entspricht weniger Informationen. Sie können dieses Prinzip der maximalen Entropie also verwenden, um zu sagen, dass innerhalb der Beta-Familie der Prior, der weniger Informationen enthält (maximale Ignoranz), dieser einheitliche Prior ist.θ[0,1]α=β=1

  2. Sie könnten eine andere Sichtweise wählen, die vom OP verwendet wird, und sagen, dass keine Information bedeutet, keine Köpfe und keinen Schwanz gesehen zu haben, dh

    α=β=0π(θ)θ1(1θ)1

    Der Prior, den wir auf diese Weise erhalten, wird als Haldane-Prior bezeichnet . Die Funktion hat ein kleines Problem - das Integral über I = [ 0 , 1 ] ist unendlich, dh unabhängig von der Normalisierungskonstante kann es nicht in ein geeignetes PDF umgewandelt werden. Tatsächlich ist der Haldane-Prior eine richtige pmf , die die Wahrscheinlichkeit 0,5 auf θ = 0 , 0,5 auf θ = 1 und die Wahrscheinlichkeit 0 auf alle anderen Werte für θ setztθ1(1θ)1I=[0,1]θ=0θ=1θ. Lassen Sie sich jedoch nicht mitreißen - für einen kontinuierlichen Parameter werden Prioritäten, die keinem richtigen PDF entsprechen, als falsche Prioritäten bezeichnet . Da, wie bereits erwähnt, für die Bayes'sche Folgerung nur die posteriore Verteilung von Bedeutung ist, sind falsche Prioritäten zulässig, solange die posteriore Verteilung korrekt ist. Im Fall des Haldane-Prior können wir beweisen, dass das hintere PDF korrekt ist, wenn unsere Stichprobe mindestens einen Erfolg und einen Misserfolg enthält. Daher können wir den Haldane nur dann verwenden, wenn wir mindestens einen Kopf und einen Schwanz beobachten. θ

    Es gibt einen anderen Sinn, in dem der Haldane-Prior als nicht informativ angesehen werden kann: Der Mittelwert der posterioren Verteilung ist jetzt , dh die Abtastfrequenz von Köpfen, die die häufigere MLE-Schätzung von θfür das Binomialmodell des Münzwurfproblems ist. Auch die glaubwürdigen Intervalle fürθentsprechen den Wald-Konfidenzintervallen. Da frequentistische Methoden keinen Prior angeben, könnte man sagen, dass der Haldane-Prior nicht informativ ist oder null Vorwissen entspricht, da dies zu der "gleichen" Schlussfolgerung führt, die ein Frequentist ziehen würde.α+xα+β+n=xnθθ

  3. Schließlich könnten Sie einen Prior verwenden, der nicht von der Parametrisierung des Problems abhängt, dh den Jeffreys-Prior, der für das Beta-Binomial-Modell entspricht

    α=β=12π(θ)θ12(1θ)12

    somit mit einer effektiven Stichprobengröße von 1. Der Jeffreys-Prior hat den Vorteil, dass er bei Reparametrisierung des Parameterraums unveränderlich ist. Beispielsweise weist der einheitliche Prior allen Werten von , der Wahrscheinlichkeit des Ereignisses "Kopf", die gleiche Wahrscheinlichkeit zu . Sie können dieses Modell jedoch in Bezug auf die logarithmischen Quoten λ = l o g ( θ) parametrisierenθdes Ereignisses "Kopf" anstelle vonθ. Was ist der Prior, der "maximale Ignoranz" in Bezug auf Log-Quoten ausdrückt, dh der besagt, dass alle möglichen Log-Quoten für Ereignis "Kopf" gleich wahrscheinlich sind? Es ist der Haldane-Prior, wie in dieser (leicht kryptischen)Antwort gezeigt. Stattdessen ist der Jeffreys bei allen Änderungen der Metrik unveränderlich. Jeffreys gab an, dass ein Prior, der diese Eigenschaft nicht besitzt, in gewisser Weise informativ ist, da er Informationen zu der Metrik enthält, mit der Sie das Problem parametrisiert haben. Sein Prior tut es nicht.λ=log(θ1θ)θ

Zusammenfassend lässt sich sagen, dass es im Beta-Binomial-Modell nicht nur eine eindeutige Wahl für einen nicht informativen Prior gibt. Was Sie wählen, hängt davon ab, was Sie als Null-Vorwissen meinen, und von den Zielen Ihrer Analyse.

DeltaIV
quelle
0

p(θ=0)=0 (Es ist unmöglich, eine All-Heads-Münze zu haben) und p(θ=1)=0(Es ist unmöglich, eine All-Tails-Münze zu haben). Die gleichmäßige Verteilung stimmt damit nicht überein. Was konsistent ist, ist eine Beta (2,2). Von der Bayes'schen Lösung bis zum Münzwurfproblem mit einem Laplace (dh Uniform) vor demθist die hintere Wahrscheinlichkeit p(θ)=B.etein(h+1,(N.- -h)+1).

user23856
quelle
Es fällt mir schwer, Ihre Antwort zu verstehen.
Michael R. Chernick
Ihre Schlussfolgerung, dass "die gleichmäßige Verteilung damit nicht übereinstimmt", ist falsch. Es verwirrt die Dichte (was gemeint sein muss mit "p„) Mit Wahrscheinlichkeit . Die (continuous) gleichmäßige Verteilung Abtretungsnullwahrscheinlichkeit jeden Atom Ereignis wieθ=0 oder θ=1.
whuber