Ich habe ein Lehrbuch für Einsteigerstatistiken gelesen. Im Kapitel über die Maximum-Likelihood-Schätzung des Erfolgsanteils in Daten mit Binomialverteilung wurde eine Formel zur Berechnung eines Konfidenzintervalls angegeben und anschließend nonchalant erwähnt
Betrachten Sie die tatsächliche Abdeckungswahrscheinlichkeit, dh die Wahrscheinlichkeit, dass die Methode ein Intervall erzeugt, das den wahren Parameterwert erfasst. Dies kann deutlich unter dem Nennwert liegen.
Und fährt mit dem Vorschlag fort, ein alternatives "Konfidenzintervall" zu konstruieren, das vermutlich die tatsächliche Abdeckungswahrscheinlichkeit enthält.
Ich wurde zum ersten Mal mit der Idee der nominalen und tatsächlichen Deckungswahrscheinlichkeit konfrontiert. Ich habe mich hier durch alte Fragen gekümmert und glaube, ich habe ein Verständnis dafür: Es gibt zwei verschiedene Konzepte, die wir Wahrscheinlichkeit nennen. Das erste ist, wie wahrscheinlich es ist, dass ein noch nicht eingetretenes Ereignis zu einem bestimmten Ergebnis führt, und das zweite ist, wie wahrscheinlich es ist, dass die Vermutung eines beobachtenden Agenten für das Ergebnis eines bereits eingetretenen Ereignisses wahr ist. Es schien auch, dass Konfidenzintervalle nur den ersten Wahrscheinlichkeitstyp messen und dass sogenannte "glaubwürdige Intervalle" den zweiten Wahrscheinlichkeitstyp messen. Ich habe zusammenfassend angenommen, dass Konfidenzintervalle diejenigen sind, die die "nominale Abdeckungswahrscheinlichkeit" berechnen, und glaubwürdige Intervalle diejenigen, die die "tatsächliche Abdeckungswahrscheinlichkeit" abdecken.
Aber vielleicht habe ich das Buch falsch interpretiert (es ist nicht ganz klar, ob die verschiedenen Berechnungsmethoden für ein Konfidenzintervall und ein glaubwürdiges Intervall oder für zwei verschiedene Arten von Konfidenzintervallen gelten) oder die anderen Quellen, zu denen ich früher gekommen bin mein aktuelles Verständnis. Besonders ein Kommentar, den ich zu einer anderen Frage bekam,
Konfidenzintervalle für Frequentisten, glaubwürdig für Bayesianer
Ich bezweifelte meine Schlussfolgerungen, da das Buch in diesem Kapitel keine Bayes'sche Methode beschrieb.
Bitte klären Sie, ob mein Verständnis korrekt ist oder ob ich unterwegs einen logischen Fehler gemacht habe.
Antworten:
Im Allgemeinen entspricht die tatsächliche Abdeckungswahrscheinlichkeit niemals der nominalen Wahrscheinlichkeit, wenn Sie mit einer diskreten Verteilung arbeiten.
Das Konfidenzintervall wird als Funktion der Daten definiert. Wenn Sie mit der Binomialverteilung arbeiten, gibt es nur endlich viele mögliche Ergebnisse ( um genau zu sein), so dass es nur endlich viele mögliche Konfidenzintervalle gibt. Da der Parameter stetig ist, ist es ziemlich leicht zu erkennen, dass die Überdeckungswahrscheinlichkeit (die eine Funktion von ) nicht besser als ungefähr 95% (oder was auch immer) sein kann.p pn+1 p p
Es ist im Allgemeinen richtig, dass auf der CLT basierende Methoden Abdeckungswahrscheinlichkeiten unterhalb des Nennwerts aufweisen, andere Methoden können jedoch tatsächlich konservativer sein.
quelle
Die nominelle Abdeckung wird nur erreicht, wenn die wahren Parameterwerte mit den erreichbaren Obergrenzen übereinstimmen.
[Ich habe Ihre Frage gerade noch einmal gelesen und festgestellt, dass der Autor sagt, dass die tatsächliche Wahrscheinlichkeit unter der nominalen Deckungswahrscheinlichkeit liegt. Ich gehe davon aus, dass es sich um eine ungefähre Methode zur Berechnung des Konfidenzintervalls handelt, obwohl das, was ich oben gesagt habe, immer noch gilt. Die Grafik könnte vorschlagen, ein durchschnittliches Konfidenzniveau von etwa melden, aber - Mittelung über Werte eines unbekannten Parameters?]98%
† Genau in dem Sinne, dass die tatsächliche Abdeckung niemals geringer ist als die nominelle Abdeckung für einen Wert von und gleich für einige Werte von - @ Unwisdoms Sinn, nicht @ Stephanes.ππ π
‡ Intervalle mit oberen und unteren Grenzen werden natürlich häufiger verwendet. aber etwas komplizierter zu erklären, und es gibt nur ein genaues Intervall, das mit nur einer Obergrenze zu berücksichtigen ist. (Siehe Blaker (2000), "Konfidenzkurven und verbesserte exakte Konfidenzintervalle für diskrete Verteilungen", Canadian Journal of Statistics , 28 , 4 und die Referenzen.)
quelle
Ich denke, der Unterschied besteht tatsächlich in der Verwendung von Näherungswerten bei der Berechnung von Konfidenzintervallen. Zum Beispiel, wenn wir das ziemlich Standard-CI von verwenden
Wir können dies ein "95% -Konfidenzintervall" nennen. In der Regel werden hier jedoch mehrere Annäherungen vorgenommen. Wenn wir keine Annäherungen machen, können wir die tatsächliche Abdeckung berechnen. Eine typische Situation besteht darin, den Standardfehler zu schätzen. Dann sind die Intervalle zu eng, um den wahren Wert mit einer Wahrscheinlichkeit von 95% zu erfassen. Sie erfassen den wahren Wert möglicherweise nur mit einer Wahrscheinlichkeit von beispielsweise 85%. Die Wahrscheinlichkeit der "tatsächlichen Abdeckung" kann unter Verwendung einer Monte-Carlo-Simulation berechnet werden (z. B. Probendatensätze unter Verwendung eines ausgewählten wahren Werts generieren , dann jeweils 95% CI berechnen und feststellen, dass tatsächlich den wahren Wert enthalten).8501000 850
quelle