Viele Frequentist Confidence Intervalls (CIs) basieren auf der Likelihood-Funktion. Wenn die vorherige Verteilung wirklich nicht informativ ist, hat der Bayes'sche Posterior im Wesentlichen die gleichen Informationen wie die Wahrscheinlichkeitsfunktion. Folglich kann in der Praxis ein Bayes'sches Wahrscheinlichkeitsintervall (oder ein glaubwürdiges Intervall) numerisch einem häufig auftretenden Konfidenzintervall sehr ähnlich sein . [Natürlich gibt es, auch wenn sie zahlenmäßig ähnlich sind, philosophische Interpretationsunterschiede zwischen Schätzungen des frequentistischen und des bayesianischen Intervalls.]
Hier ist ein einfaches Beispiel zur Schätzung der binomialen Erfolgswahrscheinlichkeit
Angenommen, wir haben Beobachtungen (Versuche) mit Erfolgen.n = 100 x = 73θ .n = 100X= 73
Frequentist: Das traditionelle Wald-Intervall verwendet die Punktschätzung
Und der 95% -KI hat die Form
die sich zu& Thgr; ±1,96√θ^= X/ N=73 / 100=0,73.(0,643,
θ^± 1,96 θ^( 1 - θ^)n--------√,
( 0,643 ,0,817 ) .
n = 100; x = 73; th.w = x/n; pm = c(-1,1)
ci.w = th.w + pm*1.96*sqrt(th.w*(1-th.w)/n); ci.w
[1] 0.6429839 0.8170161
Diese Form von CI geht davon aus, dass relevante Binomialverteilungen durch normale Verteilungen angenähert werden können und dass die Fehlerquote von durch
Insbesondere für kleine diese Annahmen nicht zutreffen. [Die Fälle mit oder sind besonders problematisch.] √θ ( 1 - θ ) / n---------√n,X=0X=nθ^( 1 - θ^) / n---------√.n ,X= 0X= n
Es wurde gezeigt, dass das Agresti-Coull-CI eine genauere Abdeckungswahrscheinlichkeit aufweist. Dieses Intervall 'addiert zwei Erfolge und zwei Fehler' als Trick, um eine Erfassungswahrscheinlichkeit nahe 95% zu erhalten. Es beginnt mit der Punktschätzung
wobei Dann hat ein 95% -KI die Form
berechnet aufFür und der Unterschied zwischen diesen beiden Arten von Konfidenzintervallen nahezu vernachlässigbar. ˜ n +4. ˜ θ ±1,96√θ~= ( X+ 2 ) / n~,n~+ 4.(0,612,0,792). n>1000,3<~θ<0,7,
θ~± 1,96 θ~( 1 - θ~)n~--------√,
(0.612,0.792).n>1000.3<θ~<0.7,
ci.a = th.a + pm*1.96*sqrt(th.a*(1-th.a)/n); ci.a
[1] 0.6122700 0.7915761
Bayesian:
Ein beliebter nicht informativer Prior in dieser Situation istDie Wahrscheinlichkeitsfunktion ist proportional zu
Multipliziert man die Kernel nach Prior und Wahrscheinlichkeit, so man den Kernel der posterioren Verteilung
Beta(1,1)≡Unif(0,1).θx(1−θ)n−x.Beta(x+1,n−x+1).
Dann verwendet eine 95% Bayes'sche Intervallschätzung die Quantile 0.025 und 0.975 der posterioren Verteilung, um
Wenn die vorherige Verteilung "flach" oder "nicht informativ" ist, ist der numerische Unterschied zwischen dem Bayes'schen Wahrscheinlichkeitsintervall und dem Agresti-Coull-Konfidenzintervall gering.(0.635,0.807).
qbeta(c(.025, .975), 74, 28)
[1] 0.6353758 0.8072313
Anmerkungen: (a) In dieser Situation bevorzugen einige Bayesianer den nicht informativen Prior(b) Für andere Konfidenzniveaus als 95% verwendet der Agresti-Coull CI eine geringfügig andere Punktschätzung. (c) Für andere Daten als Binomialdaten ist möglicherweise keine "flache" Priorität verfügbar, es kann jedoch eine Priorität mit einer großen Varianz (geringe Genauigkeit) ausgewählt werden, die nur sehr wenig Informationen enthält. (d) Weitere Informationen zu Agresti-Coull-CIs, Diagramme der Abdeckungswahrscheinlichkeiten und einige Referenzen finden Sie möglicherweise auch in dieser Frage und Antwort .Beta(.5,.5).
Wahrscheinlichkeit≠ Bayesian mit Flat Prior
Die Wahrscheinlichkeitsfunktion und das zugehörige Konfidenzintervall sind nicht dasselbe (Konzept) wie eine Bayes'sche hintere Wahrscheinlichkeit, die mit einem Prior konstruiert wurde, der eine gleichmäßige Verteilung spezifiziert.
In Teil 1 und 2 dieser Antwort wird argumentiert, warum die Wahrscheinlichkeit nicht als bayesianische hintere Wahrscheinlichkeit auf der Grundlage eines flachen Prior angesehen werden sollte.
In Teil 3 wird ein Beispiel gegeben, in dem das Konfidenzintervall und das glaubwürdige Intervall stark variieren. Es wird auch darauf hingewiesen, wie diese Diskrepanz entsteht.
1 Unterschiedliches Verhalten bei der Transformation von Variablen
Wahrscheinlichkeiten transformieren sich auf eine bestimmte Weise . Wenn wir die Wahrscheinlichkeitsverteilungsverteilungfx(x) kennen, kennen wir auch die Verteilung von fξ(ξ) für die Variable ξ die durch eine beliebige Funktion x=χ(ξ) , gemäß der Transformationsregel:
Wenn Sie eine Variable transformieren, können der Mittelwert und der Modus aufgrund dieser Änderung der Verteilungsfunktion variieren. Das heißtx¯≠χ(ξ¯) und xmaxf(x)≠χ(ξmaxf(ξ)) .
Die Wahrscheinlichkeitsfunktion wird auf diese Weise nicht transformiert . Dies ist der Gegensatz zwischen der Wahrscheinlichkeitsfunktion und der hinteren Wahrscheinlichkeit. Das (Maximum der) Wahrscheinlichkeitsfunktion bleibt beim Transformieren der Variablen gleich.
Verbunden:
Die Wohnung vor ist mehrdeutig . Dies hängt von der Form der jeweiligen Statistik ab.
Zum Beispiel, wennX einheitliche (zB verteilt ist U(0,1)) , dann X2 ist nicht eine gleichmäßige Verteilung variabel.
Es gibt keine einzelne Ebene, auf die Sie die Likelihood-Funktion beziehen können. Dies ist anders, wenn Sie die flache Priorität fürX oder eine transformierte Variable wie X2 . Für die Wahrscheinlichkeit besteht diese Abhängigkeit nicht .
Die Grenzen der Wahrscheinlichkeiten (Glaubwürdigkeitsintervalle) unterscheiden sich beim Transformieren der Variablen (für Wahrscheinlichkeitsfunktionen ist dies nicht der Fall) . ZB für einige Parametera und eine monotone Transformation f(a) (z. B. Logarithmus) erhalten Sie die äquivalenten Wahrscheinlichkeitsintervalle
aminf(amin)<<af(a)<<amaxf(amax)
2 Unterschiedliches Konzept: Konfidenzintervalle sind unabhängig vom Prior
Angenommen, Sie nehmen eine VariableX aus einer Population mit dem (unbekannten) Parameter θ die selbst (die Population mit dem Parameter θ ) aus einer Überpopulation (mit möglicherweise variierenden Werten für θ ) abgetastet wird .
Man kann eine umgekehrte Aussage treffen, um zu schließen, was das ursprünglicheθ gewesen sein könnte, indem man einige Werte xi für die Variable X .
Das Konfidenzintervall verwendet keine Informationen eines früheren Datums wie das glaubwürdige Intervall (Konfidenz ist keine Wahrscheinlichkeit).
Unabhängig von der vorherigen Verteilung (einheitlich oder nicht) enthält das x% -Konfidenzintervall den wahren Parameter inx der Fälle (Konfidenzintervalle beziehen sich auf die Erfolgsrate, Typ I-Fehler, der Methode, nicht auf einen bestimmten Fall).
Im Falle des glaubwürdigen Intervalls ist dieses Konzept (x
3 Unterschied zwischen Vertrauen und glaubwürdigen Intervallen
Die Grenzen werden erstellt, um die (eindimensionale) kumulative Verteilungsfunktion zu erhalten. Diese Integration / Kumulierung kann jedoch in zwei Richtungen erfolgen .
Der Unterschied zwischen den Intervallen tritt auf, weil die 5% -Flächen auf unterschiedliche Weise hergestellt werden.
In einem Fall, in dem das Konfidenzintervall und das glaubwürdige Intervall (basierend auf einer falschen vorherigen Angabe) zusammenfallen, wird der Mittelwert einer verteilten Gaußschen Variablen geschätzt (die Verteilung ist hier dargestellt: https://stats.stackexchange.com/a/351333/164061 ).
Ein offensichtlicher Fall, in dem Konfidenzintervall und glaubwürdiges Intervall nicht zusammenfallen, ist hier dargestellt ( https://stats.stackexchange.com/a/369909/164061 ). Das Konfidenzintervall für diesen Fall kann eine oder sogar beide (obere / untere) Grenzen im Unendlichen haben.
quelle
Dies ist im Allgemeinen nicht der Fall, scheint jedoch aufgrund der am häufigsten berücksichtigten Sonderfälle der Fall zu sein.
Fischers Technik der Konditionierung auf eine Hilfsstatistik liefert in diesem Fall ein Konfidenzintervall, das mit diesem glaubwürdigen Intervall übereinstimmt.
quelle
Aus meiner Lektüre heraus dachte ich, dass diese Aussage asymptotisch zutrifft, dh für große Stichproben und wenn man ein nicht informatives Prior verwendet.
Ein einfaches numerisches Beispiel scheint dies zu bestätigen - die 90% -Profil-Maximum-Likelihood-Intervalle und die 90% -Vertrauensintervalle eines ML-Binomial-GLM und eines Bayes-Binomial-GLM sind in der Tat nahezu identisch
n=1000
, obwohl die Diskrepanz bei kleinen Werten größer wirdn
:Wie Sie im obigen Beispiel sehen können,
n=1000
sind die 90% -Profil-Konfidenzintervalle eines binomialen GLM praktisch identisch mit den 90% -glaublichen Intervallen eines binomischen Bayes-GLM (der Unterschied liegt auch im Rahmen der Verwendung verschiedener Seeds und unterschiedlicher Anzahl der Iterationen in den Bayes'schen Anpassungen, und eine genaue Äquivalenz kann ebenfalls nicht erhalten werden, da die Angabe einer 100% nicht informativen Prioritätsstufe auch mitrstanarm
oderbrms
) nicht möglich ist .quelle