Ist die Berechnung der „tatsächlichen Deckungswahrscheinlichkeit“ dasselbe wie die Berechnung eines „glaubwürdigen Intervalls“?

9

Ich habe ein Lehrbuch für Einsteigerstatistiken gelesen. Im Kapitel über die Maximum-Likelihood-Schätzung des Erfolgsanteils in Daten mit Binomialverteilung wurde eine Formel zur Berechnung eines Konfidenzintervalls angegeben und anschließend nonchalant erwähnt

Betrachten Sie die tatsächliche Abdeckungswahrscheinlichkeit, dh die Wahrscheinlichkeit, dass die Methode ein Intervall erzeugt, das den wahren Parameterwert erfasst. Dies kann deutlich unter dem Nennwert liegen.

Und fährt mit dem Vorschlag fort, ein alternatives "Konfidenzintervall" zu konstruieren, das vermutlich die tatsächliche Abdeckungswahrscheinlichkeit enthält.

Ich wurde zum ersten Mal mit der Idee der nominalen und tatsächlichen Deckungswahrscheinlichkeit konfrontiert. Ich habe mich hier durch alte Fragen gekümmert und glaube, ich habe ein Verständnis dafür: Es gibt zwei verschiedene Konzepte, die wir Wahrscheinlichkeit nennen. Das erste ist, wie wahrscheinlich es ist, dass ein noch nicht eingetretenes Ereignis zu einem bestimmten Ergebnis führt, und das zweite ist, wie wahrscheinlich es ist, dass die Vermutung eines beobachtenden Agenten für das Ergebnis eines bereits eingetretenen Ereignisses wahr ist. Es schien auch, dass Konfidenzintervalle nur den ersten Wahrscheinlichkeitstyp messen und dass sogenannte "glaubwürdige Intervalle" den zweiten Wahrscheinlichkeitstyp messen. Ich habe zusammenfassend angenommen, dass Konfidenzintervalle diejenigen sind, die die "nominale Abdeckungswahrscheinlichkeit" berechnen, und glaubwürdige Intervalle diejenigen, die die "tatsächliche Abdeckungswahrscheinlichkeit" abdecken.

Aber vielleicht habe ich das Buch falsch interpretiert (es ist nicht ganz klar, ob die verschiedenen Berechnungsmethoden für ein Konfidenzintervall und ein glaubwürdiges Intervall oder für zwei verschiedene Arten von Konfidenzintervallen gelten) oder die anderen Quellen, zu denen ich früher gekommen bin mein aktuelles Verständnis. Besonders ein Kommentar, den ich zu einer anderen Frage bekam,

Konfidenzintervalle für Frequentisten, glaubwürdig für Bayesianer

Ich bezweifelte meine Schlussfolgerungen, da das Buch in diesem Kapitel keine Bayes'sche Methode beschrieb.

Bitte klären Sie, ob mein Verständnis korrekt ist oder ob ich unterwegs einen logischen Fehler gemacht habe.

confidence-interval terminology coverage-probability rumtscho
quelle

Die nominale Überdeckungswahrscheinlichkeit ist die "Ziel" -Überdeckungswahrscheinlichkeit: diejenige, die wir erreichen wollen, wenn wir eine Methode ableiten, die ein Konfidenzintervall bereitstellt. Die tatsächliche Abdeckung ist die "wahre" Abdeckung. Einige Leute sagen, dass das Konfidenzintervall genau ist, wenn die tatsächliche Abdeckung der nominalen Abdeckung entspricht. Scotchi und Unwisdom haben erwähnt, dass das Konfidenzintervall für diskrete Daten niemals genau ist. Ein anderes Beispiel ist, wenn wir ein asymptotisches Konfidenzintervall verwenden: Es ist nur dann genau, wenn . Ich verstehe Ihre Idee vollkommen, weil "tatsächlich" auch ein Synonym für "gegenwärtig" ist.

n \to \infty

$n \to \infty$

Stéphane Laurent

4

Im Allgemeinen entspricht die tatsächliche Abdeckungswahrscheinlichkeit niemals der nominalen Wahrscheinlichkeit, wenn Sie mit einer diskreten Verteilung arbeiten.

Das Konfidenzintervall wird als Funktion der Daten definiert. Wenn Sie mit der Binomialverteilung arbeiten, gibt es nur endlich viele mögliche Ergebnisse ( um genau zu sein), so dass es nur endlich viele mögliche Konfidenzintervalle gibt. Da der Parameter stetig ist, ist es ziemlich leicht zu erkennen, dass die Überdeckungswahrscheinlichkeit (die eine Funktion von ) nicht besser als ungefähr 95% (oder was auch immer) sein kann. $n+1$ $p$ $p$

Es ist im Allgemeinen richtig, dass auf der CLT basierende Methoden Abdeckungswahrscheinlichkeiten unterhalb des Nennwerts aufweisen, andere Methoden können jedoch tatsächlich konservativer sein.

Unwissenheit
quelle

1

Hier ist eine nützliche formelle Erklärung der Definition: Bei einem Probenraum

und ein unbekannter Parameter

, ein

Vertrauen Verfahren besteht aus einem Paar von Funktionen

, so dass

⟨ Ω, F, P ⟩

$\langle\Omega,\mathcal{F},P\rangle$

θ

$\theta$

1 - α

$1-\alpha$

L \leq U : Ω \to R

$L\leq U:\Omega\to\mathbb{R}$

Die linke Seite dieses Ausdrucks ist die

(beachten Sie, dass dies von θ abhängt) und die RHS ist dasnominale Konfidenzniveau. Wenn das Infimum (über

) der LHS gleich der RHS ist, ist das Verfahrengenau.

P [{ω \in Ω | [L (ω), U (ω)] ∋ θ}] \approx 1 - α .

$P\big[\left\{\omega\in\Omega\vert [L(\omega),U(\omega)]\ni\theta\right\}\big]\approx 1-\alpha.$

coverage probability

$\textit{coverage probability}$

Ω

$\Omega$

Unwisdom

8

$\pi$ $\pi=\pi_1$ $\pi=\pi_2$ $\pi$

$x$ $n$ $\pi$

\begin{array}{ccc} x & π_{U} & Pr (X = x | π = 0.7) & I (π_{U} \leq 0.7) \\ 0 & 0.3930378 & 0.000729 & 0 \\ 1 & 0.5818034 & 0.010206 & 0 \\ 2 & 0.7286616 & 0.059535 & 1 \\ 3 & 0.8468389 & 0.185220 & 1 \\ 4 & 0.9371501 & 0.324135 & 1 \\ 5 & 0.9914876 & 0.302526 & 1 \\ 6 & 1.0000000 & 0.117649 & 1 \end{array}

$\begin{array}{c,c,c} x & \pi_\mathrm{U} & \Pr(X= x | \pi=0.7) & I(\pi_\mathrm{U}\leq 0.7)\\ 0 & 0.3930378 & 0.000729 & 0\\ 1 & 0.5818034 & 0.010206 & 0\\ 2 & 0.7286616 & 0.059535 & 1\\ 3 & 0.8468389 & 0.185220 & 1\\ 4 & 0.9371501 & 0.324135 & 1\\ 5 & 0.9914876 & 0.302526 & 1\\ 6 & 1.0000000 & 0.117649 & 1\\ \end{array}$

x

$x$

95 %

$95\%$

π_{U} = π : [Pr (X > x | π) = 0.95]

$\pi_\mathrm{U} =\pi: [\Pr(X>x | \pi)=0.95]$

π = 0.7

$\pi=0.7$

x

$x$ unter dieser Annahme; Das vierte zeigt, für welche Fälle das berechnete Konfidenzintervall den wahren Parameterwert abdeckt und sie mit einer kennzeichnet . Wenn Sie die Wahrscheinlichkeiten für die Fälle addieren, in denen das Konfidenzintervall den wahren Wert abdeckt, erhalten Sie die tatsächliche Abdeckung . Für verschiedene wahre Werte von ist die tatsächliche Abdeckung unterschiedlich:

1

$1$

0.989065

$0.989065$

π

$\pi$

Abdeckungen

Die nominelle Abdeckung wird nur erreicht, wenn die wahren Parameterwerte mit den erreichbaren Obergrenzen übereinstimmen.

[Ich habe Ihre Frage gerade noch einmal gelesen und festgestellt, dass der Autor sagt, dass die tatsächliche Wahrscheinlichkeit unter der nominalen Deckungswahrscheinlichkeit liegt. Ich gehe davon aus, dass es sich um eine ungefähre Methode zur Berechnung des Konfidenzintervalls handelt, obwohl das, was ich oben gesagt habe, immer noch gilt. Die Grafik könnte vorschlagen, ein durchschnittliches Konfidenzniveau von etwa melden, aber - Mittelung über Werte eines unbekannten Parameters?] $98\%$

† Genau in dem Sinne, dass die tatsächliche Abdeckung niemals geringer ist als die nominelle Abdeckung für einen Wert von und gleich für einige Werte von - @ Unwisdoms Sinn, nicht @ Stephanes. $\pi$ $\pi$

‡ Intervalle mit oberen und unteren Grenzen werden natürlich häufiger verwendet. aber etwas komplizierter zu erklären, und es gibt nur ein genaues Intervall, das mit nur einer Obergrenze zu berücksichtigen ist. (Siehe Blaker (2000), "Konfidenzkurven und verbesserte exakte Konfidenzintervalle für diskrete Verteilungen", Canadian Journal of Statistics , 28 , 4 und die Referenzen.)

Scortchi - Monica wieder einsetzen
quelle

Danke für die Antwort. Haben Sie jetzt, da ich weiß, wie hoch die tatsächliche Abdeckungswahrscheinlichkeit ist, eine Vermutung, warum der Benutzer in dieser Frage zu Fragen geschickt wurde, die den Unterschied zwischen glaubwürdigen und Konfidenzintervallen erklären? Hier kam mir die Idee, dass die tatsächliche / nominale Abdeckung prob. Dualität ist verwandt. stats.stackexchange.com/questions/63922/…

rumtscho

Wahrscheinlich, weil das OP nur einen Link dazu gibt, wo er die Begriffe "nominal" und "tatsächlich" gesehen hat (anstatt sie in der Frage zusammenzufassen oder zu zitieren, wie Sie es getan haben), und dann den Rest seiner Frage seiner Fehlinterpretation widmet in diesem Zusammenhang verwenden.

Scortchi - Monica wieder einsetzen

1

Ich denke, der Unterschied besteht tatsächlich in der Verwendung von Näherungswerten bei der Berechnung von Konfidenzintervallen. Zum Beispiel, wenn wir das ziemlich Standard-CI von verwenden

estimate \pm 1.96 \times estimated standard error

$\text{estimate}\pm 1.96 \times \text {estimated standard error}$

Wir können dies ein "95% -Konfidenzintervall" nennen. In der Regel werden hier jedoch mehrere Annäherungen vorgenommen. Wenn wir keine Annäherungen machen, können wir die tatsächliche Abdeckung berechnen. Eine typische Situation besteht darin, den Standardfehler zu schätzen. Dann sind die Intervalle zu eng, um den wahren Wert mit einer Wahrscheinlichkeit von 95% zu erfassen. Sie erfassen den wahren Wert möglicherweise nur mit einer Wahrscheinlichkeit von beispielsweise 85%. Die Wahrscheinlichkeit der "tatsächlichen Abdeckung" kann unter Verwendung einer Monte-Carlo-Simulation berechnet werden (z. B. Probendatensätze unter Verwendung eines ausgewählten wahren Werts generieren , dann jeweils 95% CI berechnen und feststellen, dass tatsächlich den wahren Wert enthalten). $1000$ $850$

Wahrscheinlichkeitslogik
quelle

Ist die Berechnung der „tatsächlichen Deckungswahrscheinlichkeit“ dasselbe wie die Berechnung eines „glaubwürdigen Intervalls“?

Antworten: