Kruschkes Bayesianisches Buch sagt über die Verwendung einer Beta-Distribution zum Werfen einer Münze:
Wenn wir zum Beispiel kein anderes Vorwissen haben als das Wissen, dass die Münze eine Kopf- und eine Schwanzseite hat, bedeutet dies, dass wir zuvor einen Kopf und einen Schwanz beobachtet haben, was a = 1 und b = 1 entspricht.
Warum wäre keine Information gleichbedeutend damit, einen Kopf und einen Schwanz gesehen zu haben - 0 Köpfe und 0 Schwänze scheinen mir natürlicher.
probability
bayesian
beta-distribution
Hatschepsut
quelle
quelle
Antworten:
Das Zitat ist ein "logisches Kunststück" (großartiger Ausdruck!), Wie @whuber in den Kommentaren zum OP feststellte. Das einzige, was wir wirklich sagen können, nachdem wir gesehen haben, dass die Münze einen Kopf und einen Schwanz hat, ist, dass beide Ereignisse "Kopf" und "Schwanz" nicht unmöglich sind. Somit könnten wir einen diskreten Prior verwerfen, der die gesamte Wahrscheinlichkeitsmasse auf "Kopf" oder "Schwanz" legt. Dies führt jedoch nicht von alleine zum Uniformprior: Die Frage ist viel subtiler. Lassen Sie uns zunächst ein wenig Hintergrundwissen zusammenfassen. Wir betrachten das Beta-Binominal-Konjugatmodell für die Bayes'sche Folgerung der Wahrscheinlichkeit von Münzköpfen bei n unabhängigen und identisch verteilten (bedingt durch θ ) Münzwürfen.θ n θ wenn wir x Köpfe in n Würfen beobachten:p(θ|x) x n
Wir können sagen, dass und β die Rolle einer "vorherigen Anzahl von Köpfen" und einer "vorherigen Anzahl von Schwänzen" (Pseudotrials) spielen und α + β als effektive Stichprobengröße interpretiert werden kann. Wir könnten zu dieser Interpretation auch kommen, indem wir den bekannten Ausdruck für den hinteren Mittelwert als gewichteten Durchschnitt des vorherigen Mittelwerts α verwendenα β α+β und der Probenmittelwertxαα+β .xn
Wenn wir , können wir zwei Überlegungen anstellen:p(θ|x)
Auch da ist der vorherige Mittelwert, und wir haben keine Vorkenntnisse über die Verteilung von θ, wir würdenμprior=0,5erwarten. Dies ist ein Argument der Symmetrie - wenn wir es nicht besser wissen, würden wir nichta priorierwarten,dass die Verteilung gegen 0 oder gegen 1 verschoben ist. Die Beta-Verteilung istμprior=αα+β θ μprior=0.5
Dieser Ausdruck ist nur um symmetrisch, wenn α = β .θ=0.5 α=β
Aus diesen beiden Gründen erwarten wir intuitiv, dass und c "klein" ist , unabhängig davon, welches Prior (zur Beta-Familie gehörend - denken Sie daran, konjugiertes Modell!), Das wir verwenden . Wir können sehen, dass alle drei häufig verwendeten nicht informativen Prioritäten für das Beta-Binomial-Modell diese Merkmale gemeinsam haben, aber ansonsten sind sie sehr unterschiedlich. Und das ist offensichtlich: Kein Vorwissen oder "maximale Ignoranz" ist keine wissenschaftliche Definition. Welche Art von Prior "maximale Ignoranz" ausdrückt, dh was ein nicht informativer Prior ist, hängt davon ab, was Sie tatsächlich als "Maximum" meinen Ignoranz".α=β=c c
wir könnten einen Prior wählen, der besagt, dass alle Werte für wahrscheinlich sind, da wir es nicht besser wissen. Wieder ein Symmetrieargument. Dies entspricht α = β = 1 :θ α=β=1
für , dh den von Kruschke verwendeten Uniformprior. Wenn Sie den Ausdruck für die differentielle Entropie der Beta-Verteilung ausschreiben, können Sie formal sehen, dass sie maximiert ist, wenn α = β = 1 ist . Jetzt wird Entropie oft als Maß für die "Informationsmenge" interpretiert, die von einer Verteilung getragen wird: Eine höhere Entropie entspricht weniger Informationen. Sie können dieses Prinzip der maximalen Entropie also verwenden, um zu sagen, dass innerhalb der Beta-Familie der Prior, der weniger Informationen enthält (maximale Ignoranz), dieser einheitliche Prior ist.θ∈[0,1] α=β=1
Sie könnten eine andere Sichtweise wählen, die vom OP verwendet wird, und sagen, dass keine Information bedeutet, keine Köpfe und keinen Schwanz gesehen zu haben, dh
Der Prior, den wir auf diese Weise erhalten, wird als Haldane-Prior bezeichnet . Die Funktion hat ein kleines Problem - das Integral über I = [ 0 , 1 ] ist unendlich, dh unabhängig von der Normalisierungskonstante kann es nicht in ein geeignetes PDF umgewandelt werden. Tatsächlich ist der Haldane-Prior eine richtige pmf , die die Wahrscheinlichkeit 0,5 auf θ = 0 , 0,5 auf θ = 1 und die Wahrscheinlichkeit 0 auf alle anderen Werte für θ setztθ−1(1−θ)−1 I=[0,1] θ=0 θ=1 θ . Lassen Sie sich jedoch nicht mitreißen - für einen kontinuierlichen Parameter werden Prioritäten, die keinem richtigen PDF entsprechen, als falsche Prioritäten bezeichnet . Da, wie bereits erwähnt, für die Bayes'sche Folgerung nur die posteriore Verteilung von Bedeutung ist, sind falsche Prioritäten zulässig, solange die posteriore Verteilung korrekt ist. Im Fall des Haldane-Prior können wir beweisen, dass das hintere PDF korrekt ist, wenn unsere Stichprobe mindestens einen Erfolg und einen Misserfolg enthält. Daher können wir den Haldane nur dann verwenden, wenn wir mindestens einen Kopf und einen Schwanz beobachten. θ
Es gibt einen anderen Sinn, in dem der Haldane-Prior als nicht informativ angesehen werden kann: Der Mittelwert der posterioren Verteilung ist jetzt , dh die Abtastfrequenz von Köpfen, die die häufigere MLE-Schätzung von θfür das Binomialmodell des Münzwurfproblems ist. Auch die glaubwürdigen Intervalle fürθentsprechen den Wald-Konfidenzintervallen. Da frequentistische Methoden keinen Prior angeben, könnte man sagen, dass der Haldane-Prior nicht informativ ist oder null Vorwissen entspricht, da dies zu der "gleichen" Schlussfolgerung führt, die ein Frequentist ziehen würde.α+xα+β+n=xn θ θ
Schließlich könnten Sie einen Prior verwenden, der nicht von der Parametrisierung des Problems abhängt, dh den Jeffreys-Prior, der für das Beta-Binomial-Modell entspricht
somit mit einer effektiven Stichprobengröße von 1. Der Jeffreys-Prior hat den Vorteil, dass er bei Reparametrisierung des Parameterraums unveränderlich ist. Beispielsweise weist der einheitliche Prior allen Werten von , der Wahrscheinlichkeit des Ereignisses "Kopf", die gleiche Wahrscheinlichkeit zu . Sie können dieses Modell jedoch in Bezug auf die logarithmischen Quoten λ = l o g ( θ) parametrisierenθ des Ereignisses "Kopf" anstelle vonθ. Was ist der Prior, der "maximale Ignoranz" in Bezug auf Log-Quoten ausdrückt, dh der besagt, dass alle möglichen Log-Quoten für Ereignis "Kopf" gleich wahrscheinlich sind? Es ist der Haldane-Prior, wie in dieser (leicht kryptischen)Antwort gezeigt. Stattdessen ist der Jeffreys bei allen Änderungen der Metrik unveränderlich. Jeffreys gab an, dass ein Prior, der diese Eigenschaft nicht besitzt, in gewisser Weise informativ ist, da er Informationen zu der Metrik enthält, mit der Sie das Problem parametrisiert haben. Sein Prior tut es nicht.λ=log(θ1−θ) θ
Zusammenfassend lässt sich sagen, dass es im Beta-Binomial-Modell nicht nur eine eindeutige Wahl für einen nicht informativen Prior gibt. Was Sie wählen, hängt davon ab, was Sie als Null-Vorwissen meinen, und von den Zielen Ihrer Analyse.
quelle
quelle