31

Ich bin sehr neu in der Bayes'schen Statistik, und das mag eine dumme Frage sein. Dennoch:

Betrachten Sie ein glaubwürdiges Intervall mit einem Prior, das eine gleichmäßige Verteilung angibt. Zum Beispiel von 0 bis 1, wobei 0 bis 1 den gesamten Bereich der möglichen Werte eines Effekts darstellt. Wäre in diesem Fall ein zu 95% glaubwürdiges Intervall gleich einem 95% -Konfidenzintervall?

bayesian confidence-interval estimation prior credible-interval pomodoro
quelle

23

Viele Frequentist Confidence Intervalls (CIs) basieren auf der Likelihood-Funktion. Wenn die vorherige Verteilung wirklich nicht informativ ist, hat der Bayes'sche Posterior im Wesentlichen die gleichen Informationen wie die Wahrscheinlichkeitsfunktion. Folglich kann in der Praxis ein Bayes'sches Wahrscheinlichkeitsintervall (oder ein glaubwürdiges Intervall) numerisch einem häufig auftretenden Konfidenzintervall sehr ähnlich sein . [Natürlich gibt es, auch wenn sie zahlenmäßig ähnlich sind, philosophische Interpretationsunterschiede zwischen Schätzungen des frequentistischen und des bayesianischen Intervalls.]

Hier ist ein einfaches Beispiel zur Schätzung der binomialen Erfolgswahrscheinlichkeit Angenommen, wir haben Beobachtungen (Versuche) mit Erfolgen. $\theta.$ $n = 100$ $X = 73$

Frequentist: Das traditionelle Wald-Intervall verwendet die Punktschätzung Und der 95% -KI hat die Form die sich zu $\hat \theta = X/n = 73/100 = 0.73.$

\hat{θ} \pm 1.96 \sqrt{\frac{\hat{θ} (1 - \hat{θ})}{n}},

$\hat \theta \pm 1.96\sqrt{\frac{\hat \theta(1-\hat \theta)} {n}},$

(0.643, 0.817) .

$(0.643,\,0.817).$

n = 100;  x = 73;  th.w = x/n;  pm = c(-1,1)
ci.w = th.w + pm*1.96*sqrt(th.w*(1-th.w)/n);  ci.w
[1] 0.6429839 0.8170161

Diese Form von CI geht davon aus, dass relevante Binomialverteilungen durch normale Verteilungen angenähert werden können und dass die Fehlerquote von durch Insbesondere für kleine diese Annahmen nicht zutreffen. [Die Fälle mit oder sind besonders problematisch.] $\sqrt{\theta(1-\theta)/n}$ $\sqrt{\hat\theta(1-\hat\theta)/n}.$ $n,$ $X = 0$ $X = n$

Es wurde gezeigt, dass das Agresti-Coull-CI eine genauere Abdeckungswahrscheinlichkeit aufweist. Dieses Intervall 'addiert zwei Erfolge und zwei Fehler' als Trick, um eine Erfassungswahrscheinlichkeit nahe 95% zu erhalten. Es beginnt mit der Punktschätzung wobei Dann hat ein 95% -KI die Form berechnet aufFür und der Unterschied zwischen diesen beiden Arten von Konfidenzintervallen nahezu vernachlässigbar. $\tilde \theta = (X+2)/\tilde n,$ $\tilde n + 4.$

\tilde{θ} \pm 1.96 \sqrt{\frac{\tilde{θ} (1 - \tilde{θ})}{\tilde{n}}},

$\tilde \theta \pm 1.96\sqrt{\frac{\tilde \theta(1-\tilde \theta)} {\tilde n}},$

(0.612, 0.792) .

$(0.612, 0.792).$

n > 100

$n > 100$

0.3 < \tilde{θ} < 0.7,

$0.3 < \tilde \theta < 0.7,$

ci.a = th.a + pm*1.96*sqrt(th.a*(1-th.a)/n);  ci.a
[1] 0.6122700 0.7915761

Bayesian: Ein beliebter nicht informativer Prior in dieser Situation istDie Wahrscheinlichkeitsfunktion ist proportional zu Multipliziert man die Kernel nach Prior und Wahrscheinlichkeit, so man den Kernel der posterioren Verteilung $\mathsf{Beta}(1,1) \equiv \mathsf{Unif}(0,1).$ $\theta^x(1-\theta)^{n-x}.$ $\mathsf{Beta}(x+1,\, n-x+1).$

Dann verwendet eine 95% Bayes'sche Intervallschätzung die Quantile 0.025 und 0.975 der posterioren Verteilung, um Wenn die vorherige Verteilung "flach" oder "nicht informativ" ist, ist der numerische Unterschied zwischen dem Bayes'schen Wahrscheinlichkeitsintervall und dem Agresti-Coull-Konfidenzintervall gering. $(0.635, 0.807).$

qbeta(c(.025, .975), 74, 28)
[1] 0.6353758 0.8072313

Anmerkungen: (a) In dieser Situation bevorzugen einige Bayesianer den nicht informativen Prior(b) Für andere Konfidenzniveaus als 95% verwendet der Agresti-Coull CI eine geringfügig andere Punktschätzung. (c) Für andere Daten als Binomialdaten ist möglicherweise keine "flache" Priorität verfügbar, es kann jedoch eine Priorität mit einer großen Varianz (geringe Genauigkeit) ausgewählt werden, die nur sehr wenig Informationen enthält. (d) Weitere Informationen zu Agresti-Coull-CIs, Diagramme der Abdeckungswahrscheinlichkeiten und einige Referenzen finden Sie möglicherweise auch in dieser Frage und Antwort . $\mathsf{Beta}(.5, .5).$

BruceET
quelle

10

Die Antwort von BruceET ist ausgezeichnet, aber ziemlich lang. Hier ist eine kurze praktische Zusammenfassung:

Wenn der Prior flach ist, haben Likelihood und Posterior die gleiche Form
Die Intervalle müssen jedoch nicht unbedingt gleich sein, da sie unterschiedlich aufgebaut sind. Ein Standard-Bayesian-90% -CI deckt die zentralen 90% des Seitenzahns ab. Ein frequentistisches CI wird normalerweise durch einen punktuellen Vergleich definiert (siehe BruceETs Antwort). Bei einem unbegrenzten Standortparameter (z. B. Schätzen des Mittelwerts einer Normalverteilung) ist die Differenz normalerweise gering. Wenn Sie jedoch einen begrenzten Parameter (z. B. einen binomialen Mittelwert) in der Nähe der Grenzen (0/1) schätzen, können die Unterschiede erheblich sein.
Natürlich ist die Interpretation auch anders, aber ich interpretiere die Frage hauptsächlich als "Wann werden die Werte gleich sein?"

Florian Hartig
quelle

9

Während man nach einem Prior lösen kann, der ein glaubwürdiges Intervall ergibt, das dem Frequenzvertrauensintervall entspricht, ist es wichtig zu erkennen, wie eng der Anwendungsbereich ist. Bei der gesamten Diskussion wird davon ausgegangen, dass der Stichprobenumfang festgelegt und keine Zufallsvariable ist. Es wird davon ausgegangen, dass die Daten nur einmal betrachtet wurden und keine sequentielle Inferenz durchgeführt wurde. Es wird davon ausgegangen, dass es nur eine abhängige Variable gab und keine anderen Parameter von Interesse waren. Wo es Multiplizitäten gibt, weichen die Intervalle von Bayesian und Frequentist voneinander ab (die Bayesianischen posterioren Wahrscheinlichkeiten befinden sich im Vorwärts-Zeit-Vorhersagemodus und müssen nicht überlegen, wie wir hierher gekommen sind, sodass wir uns nicht auf mehrere Looks einstellen können oder müssen). Und dazu,

Frank Harrell
quelle

Was bedeutet es, sich im "Forward-Time Predictive Mode" zu befinden und warum müssen Auswahl- oder Multiplizitätseffekte nicht berücksichtigt werden?

Badmax

1

Sieh das . Denken Sie daran, den Sieger eines Fußballspiels im Verlauf des Spiels vorherzusagen. Ihre derzeitige Wahrscheinlichkeit, dass Team x das Spiel gewinnt, kann die Prognosen, die Sie in der Vergangenheit gemacht haben, vollständig ignorieren. Wenn Sie jedoch im Vielspielermodus arbeiten, müssen Sie sich immer vorstellen, wann Ihre Mannschaft das Spiel verloren hat, und an allen Punkten des Spiels, an denen Sie Prognosen abgeben, Extremwerte berücksichtigen. Multiplizitäten ergeben sich aus der Wahrscheinlichkeit, dass Sie Daten als extrem einstufen, und diese Faktoren fließen nur in häufig auftretende Berechnungen ein.

Frank Harrell

6

Wahrscheinlichkeit $\neq$ Bayesian mit Flat Prior

Die Wahrscheinlichkeitsfunktion und das zugehörige Konfidenzintervall sind nicht dasselbe (Konzept) wie eine Bayes'sche hintere Wahrscheinlichkeit, die mit einem Prior konstruiert wurde, der eine gleichmäßige Verteilung spezifiziert.

In Teil 1 und 2 dieser Antwort wird argumentiert, warum die Wahrscheinlichkeit nicht als bayesianische hintere Wahrscheinlichkeit auf der Grundlage eines flachen Prior angesehen werden sollte.

In Teil 3 wird ein Beispiel gegeben, in dem das Konfidenzintervall und das glaubwürdige Intervall stark variieren. Es wird auch darauf hingewiesen, wie diese Diskrepanz entsteht.

1 Unterschiedliches Verhalten bei der Transformation von Variablen

Wahrscheinlichkeiten transformieren sich auf eine bestimmte Weise . Wenn wir die Wahrscheinlichkeitsverteilungsverteilung $f_x(x)$ kennen, kennen wir auch die Verteilung von $f_\xi(\xi)$ für die Variable $\xi$ die durch eine beliebige Funktion $x=\chi(\xi)$ , gemäß der Transformationsregel:

f_{ξ} (ξ) = f_{x} (χ (ξ)) \frac{d χ}{d ξ} d ξ

$f_\xi(\xi) = f_x(\chi(\xi)) \frac{d\chi}{d\xi} d\xi$

Wenn Sie eine Variable transformieren, können der Mittelwert und der Modus aufgrund dieser Änderung der Verteilungsfunktion variieren. Das heißt $\bar{x} \neq \chi(\bar{\xi})$ und $x_{\max f(x)} \neq \chi(\xi_{\max f(\xi)})$ .

Die Wahrscheinlichkeitsfunktion wird auf diese Weise nicht transformiert . Dies ist der Gegensatz zwischen der Wahrscheinlichkeitsfunktion und der hinteren Wahrscheinlichkeit. Das (Maximum der) Wahrscheinlichkeitsfunktion bleibt beim Transformieren der Variablen gleich.

L_{ξ} (ξ) = L_{x} (χ (ξ))

$\mathcal{L}_\xi(\xi) = \mathcal{L}_x(\chi(\xi))$

Verbunden:

Die Wohnung vor ist mehrdeutig . Dies hängt von der Form der jeweiligen Statistik ab.

Zum Beispiel, wenn $X$ einheitliche (zB verteilt ist $\mathcal{U}(0,1))$ , dann $X^2$ ist nicht eine gleichmäßige Verteilung variabel.

Es gibt keine einzelne Ebene, auf die Sie die Likelihood-Funktion beziehen können. Dies ist anders, wenn Sie die flache Priorität für $X$ oder eine transformierte Variable wie $X^2$ . Für die Wahrscheinlichkeit besteht diese Abhängigkeit nicht .
Die Grenzen der Wahrscheinlichkeiten (Glaubwürdigkeitsintervalle) unterscheiden sich beim Transformieren der Variablen (für Wahrscheinlichkeitsfunktionen ist dies nicht der Fall) . ZB für einige Parameter $a$ und eine monotone Transformation $f(a)$ (z. B. Logarithmus) erhalten Sie die äquivalenten Wahrscheinlichkeitsintervalle
$\begin{array}{ccccc} a_{min} & < & a & < & a_{max} \\ f (a_{min}) & < & f (a) & < & f (a_{max}) \end{array}$ $\begin{array}{ccccc} a_{\min} &<& a &<& a_{\max}\\ f(a_{\min}) &<& f(a) &<& f(a_{\max}) \end{array}$

2 Unterschiedliches Konzept: Konfidenzintervalle sind unabhängig vom Prior

Angenommen, Sie nehmen eine Variable $X$ aus einer Population mit dem (unbekannten) Parameter $\theta$ die selbst (die Population mit dem Parameter $\theta$ ) aus einer Überpopulation (mit möglicherweise variierenden Werten für $\theta$ ) abgetastet wird .

Man kann eine umgekehrte Aussage treffen, um zu schließen, was das ursprüngliche $\theta$ gewesen sein könnte, indem man einige Werte $x_i$ für die Variable $X$ .

Bayes'sche Methoden tun dies, indem sie eine vorherige Verteilung für die Verteilung von möglichem $\theta$
Dies steht im Gegensatz zu der Wahrscheinlichkeitsfunktion und dem Konfidenzintervall, die von der vorherigen Verteilung unabhängig sind .

Das Konfidenzintervall verwendet keine Informationen eines früheren Datums wie das glaubwürdige Intervall (Konfidenz ist keine Wahrscheinlichkeit).

Unabhängig von der vorherigen Verteilung (einheitlich oder nicht) enthält das x% -Konfidenzintervall den wahren Parameter in $x%$ der Fälle (Konfidenzintervalle beziehen sich auf die Erfolgsrate, Typ I-Fehler, der Methode, nicht auf einen bestimmten Fall).

Im Falle des glaubwürdigen Intervalls ist dieses Konzept ( $%$ $x%$

3 Unterschied zwischen Vertrauen und glaubwürdigen Intervallen

$\lambda$ $\bar{x}$ $n$

L (λ, \bar{x}, n) = \frac{n^{n}}{(n - 1)!} x^{n - 1} λ^{n} e^{- λ n \bar{x}}

$\mathcal{L}(\lambda,\bar{x},n) = \frac{n^n}{(n-1)!} x^{n-1} \lambda^n e^{-\lambda n \bar{x}}$

$n$ $\lambda$ $\bar{x}$ $\bar{x}+dx$

^{$\lambda$ $0$ $\infty$ $0$ $1$ $0$ $1$}

$n=4$

Die Grenzen werden erstellt, um die (eindimensionale) kumulative Verteilungsfunktion zu erhalten. Diese Integration / Kumulierung kann jedoch in zwei Richtungen erfolgen .

Der Unterschied zwischen den Intervallen tritt auf, weil die 5% -Flächen auf unterschiedliche Weise hergestellt werden.

$\lambda$ $\bar{x}$ $\lambda$

$\lambda$ $\bar{x}$
$\lambda$ $\bar{x}$

$\bar{x}$ $\lambda$ $\lambda$ $\lambda$

$\bar{x}$ $\lambda$

In einem Fall, in dem das Konfidenzintervall und das glaubwürdige Intervall (basierend auf einer falschen vorherigen Angabe) zusammenfallen, wird der Mittelwert einer verteilten Gaußschen Variablen geschätzt (die Verteilung ist hier dargestellt: https://stats.stackexchange.com/a/351333/164061 ).

Ein offensichtlicher Fall, in dem Konfidenzintervall und glaubwürdiges Intervall nicht zusammenfallen, ist hier dargestellt ( https://stats.stackexchange.com/a/369909/164061 ). Das Konfidenzintervall für diesen Fall kann eine oder sogar beide (obere / untere) Grenzen im Unendlichen haben.

Sextus Empiricus
quelle

2

Sprechen Sie nicht darüber, ob das glaubwürdige Intervall den wahren Parameter enthält. Das glaubwürdige Intervall gibt eine Wahrscheinlichkeitsangabe ab. Und das x% für das Konfidenzintervall muss angeben, was Replikation bedeutet, dh was "Fälle" sind.

Frank Harrell

B e t a (.5, .5)

$\mathsf{Beta}(.5, .5)$

Ich glaube nicht, dass ich gesagt habe, dass bei einer Wohnung im Vorhinein die Wahrscheinlichkeit am hinteren Ende liegt, obwohl dies der Fall sein kann. Ich habe versucht, den ersten Absatz meiner Antwort sorgfältig zu schreiben, da ich eine Antwort mit dem vermeintlichen Kenntnisstand von OP verfasst habe. Glauben Sie, dass das, was ich gesagt habe, tatsächlich falsch ist, oder sagen Sie, dass es falsch interpretiert werden könnte?

BruceET

1

Dies ist im Allgemeinen nicht der Fall, scheint jedoch aufgrund der am häufigsten berücksichtigten Sonderfälle der Fall zu sein.

$X,Y\sim\operatorname{i.i.d}\sim\operatorname{Uniform}[\theta-1/2,\, \theta+1/2].$ $\big(\min\{X,Y\},\max\{X,Y\}\big)$ $50\%$ $\theta,$ $50\%$

Fischers Technik der Konditionierung auf eine Hilfsstatistik liefert in diesem Fall ein Konfidenzintervall, das mit diesem glaubwürdigen Intervall übereinstimmt.

Michael Hardy
quelle

0

Aus meiner Lektüre heraus dachte ich, dass diese Aussage asymptotisch zutrifft, dh für große Stichproben und wenn man ein nicht informatives Prior verwendet.

Ein einfaches numerisches Beispiel scheint dies zu bestätigen - die 90% -Profil-Maximum-Likelihood-Intervalle und die 90% -Vertrauensintervalle eines ML-Binomial-GLM und eines Bayes-Binomial-GLM sind in der Tat nahezu identisch n=1000, obwohl die Diskrepanz bei kleinen Werten größer wird n:

# simulate some data
set.seed(123)
n = 1000                     # sample size
x1 = rnorm(n)                # two continuous covariates 
x2 = rnorm(n)
z = 0.1 + 2*x1 + 3*x2        # predicted values on logit scale
y = rbinom(n,1,plogis(z))    # bernoulli response variable
d = data.frame(y=y, x1=x1, x2=x2)

# fit a regular GLM and calculate 90% confidence intervals
glmfit = glm(y ~ x1 + x2, family = "binomial", data = d)
library(MASS)
# coefficients and 90% profile confidence intervals :
round(cbind(coef(glmfit), confint(glmfit, level=0.9)), 2) 
#                      5 % 95 %
#   (Intercept) 0.00 -0.18 0.17
# x1            2.04  1.77 2.34
# x2            3.42  3.05 3.81

# fit a Bayesian GLM using rstanarm
library(rstanarm)
t_prior = student_t(df = 3, location = 0, scale = 100) # we set scale to large value to specify an uninformative prior
bfit1 = stan_glm(y ~ x1 + x2, data = d, 
                 family = binomial(link = "logit"), 
                 prior = t_prior, prior_intercept = t_prior,  
                 chains = 1, cores = 4, seed = 123, iter = 10000)
# coefficients and 90% credible intervals :
round(cbind(coef(bfit1), posterior_interval(bfit1, prob = 0.9)), 2) 
#                        5%  95%
#   (Intercept) -0.01 -0.18 0.17
# x1             2.06  1.79 2.37
# x2             3.45  3.07 3.85


# fit a Bayesian GLM using brms
library(brms)
priors = c(
  prior(student_t(3, 0, 100), class = "Intercept"),
  prior(student_t(3, 0, 100), class = "b")
)
bfit2 = brm(
  y ~ x1 + x2,
  data = d,
  prior = priors,
  family = "bernoulli",
  seed = 123 
) 
# coefficients and 90% credible intervals :
summary(bfit2, prob=0.9)
# Population-Level Effects: 
#           Estimate Est.Error l-90% CI u-90% CI Eff.Sample Rhat
# Intercept    -0.01      0.11    -0.18     0.18       2595 1.00
# x1            2.06      0.17     1.79     2.35       2492 1.00
# x2            3.45      0.23     3.07     3.83       2594 1.00


# fit a Bayesian GLM using arm
library(arm)
# we set prior.scale to Inf to specify an uninformative prior
bfit3 = bayesglm(y ~ x1 + x2, family = "binomial", data = d, prior.scale = Inf) 
sims = coef(sim(bfit3, n.sims=1000000))
# coefficients and 90% credible intervals :
round(cbind(coef(bfit3), t(apply(sims, 2, function (col) quantile(col,c(.05, .95))))),2)
#                       5%  95%
#   (Intercept) 0.00 -0.18 0.17
# x1            2.04  1.76 2.33
# x2            3.42  3.03 3.80

Wie Sie im obigen Beispiel sehen können, n=1000sind die 90% -Profil-Konfidenzintervalle eines binomialen GLM praktisch identisch mit den 90% -glaublichen Intervallen eines binomischen Bayes-GLM (der Unterschied liegt auch im Rahmen der Verwendung verschiedener Seeds und unterschiedlicher Anzahl der Iterationen in den Bayes'schen Anpassungen, und eine genaue Äquivalenz kann ebenfalls nicht erhalten werden, da die Angabe einer 100% nicht informativen Prioritätsstufe auch mit rstanarmoder brms) nicht möglich ist .

Tom Wenseleers
quelle

Wenn ein glaubwürdiges Intervall eine flache Priorität hat, entspricht ein 95% -Konfidenzintervall einem glaubwürdigen Intervall von 95%?

Antworten:

Wahrscheinlichkeit $\neq$ Bayesian mit Flat Prior

1 Unterschiedliches Verhalten bei der Transformation von Variablen

2 Unterschiedliches Konzept: Konfidenzintervalle sind unabhängig vom Prior

3 Unterschied zwischen Vertrauen und glaubwürdigen Intervallen

Wenn ein glaubwürdiges Intervall eine flache Priorität hat, entspricht ein 95% -Konfidenzintervall einem glaubwürdigen Intervall von 95%?

Antworten:

Wahrscheinlichkeit ≠≠\neq Bayesian mit Flat Prior

1 Unterschiedliches Verhalten bei der Transformation von Variablen

2 Unterschiedliches Konzept: Konfidenzintervalle sind unabhängig vom Prior

3 Unterschied zwischen Vertrauen und glaubwürdigen Intervallen

Wahrscheinlichkeit $\neq$ Bayesian mit Flat Prior