Es wird angenommen, dass sie symmetrisch sind, da häufig eine normale Approximation verwendet wird. Dieser funktioniert gut genug für den Fall, dass p um 0,5 liegt. binom.test
Andererseits werden "genaue" Clopper-Pearson-Intervalle gemeldet, die auf der F-Verteilung basieren (siehe hier für die genauen Formeln beider Ansätze). Wenn wir das Clopper-Pearson-Intervall in R implementieren würden, wäre es ungefähr so (siehe Hinweis ):
Clopper.Pearson <- function(x, n, conf.level){
alpha <- (1 - conf.level) / 2
QF.l <- qf(1 - alpha, 2*n - 2*x + 2, 2*x)
QF.u <- qf(1 - alpha, 2*x + 2, 2*n - 2*x)
ll <- if (x == 0){
0
} else { x / ( x + (n-x+1)*QF.l ) }
uu <- if (x == 0){
0
} else { (x+1)*QF.u / ( n - x + (x+1)*QF.u ) }
return(c(ll, uu))
}
Sie sehen sowohl im Link als auch in der Implementierung, dass die Formel für die obere und die untere Grenze völlig unterschiedlich sind. Der einzige Fall eines symmetrischen Konfidenzintervalls ist, wenn p = 0,5 ist. Verwenden Sie die Formeln aus dem Link und berücksichtigen Sie, dass in diesem Fall es einfach, sich abzuleiten, wie es kommt.n=2×x
Ich persönlich habe es besser verstanden, die Konfidenzintervalle auf der Grundlage eines logistischen Ansatzes zu betrachten. Binomialdaten werden im Allgemeinen mit einer Logit-Link-Funktion modelliert, die wie folgt definiert ist:
logit(x)=log(x1−x)
Diese Verknüpfungsfunktion "ordnet" den Fehlerterm in einer logistischen Regression einer Normalverteilung zu. Folglich sind die Konfidenzintervalle im logistischen Framework um die logit-Werte symmetrisch, ähnlich wie im klassischen linearen Regressionsframework. Die Logit-Transformation wird genau verwendet, um die gesamte auf Normalität basierende Theorie um die lineare Regression zu verwenden.
Nach der inversen Transformation:
logit−1(x)=ex1+ex
Sie erhalten wieder ein asymmetrisches Intervall. Nun sind diese Konfidenzintervalle tatsächlich voreingenommen. Ihre Abdeckung entspricht nicht den Erwartungen, insbesondere an den Grenzen der Binomialverteilung. Zur Veranschaulichung zeigen sie jedoch, warum es logisch ist, dass eine Binomialverteilung asymmetrische Konfidenzintervalle aufweist.
Ein Beispiel in R:
logit <- function(x){ log(x/(1-x)) }
inv.logit <- function(x){ exp(x)/(1+exp(x)) }
x <- c(0.2, 0.5, 0.8)
lx <- logit(x)
upper <- lx + 2
lower <- lx - 2
logxtab <- cbind(lx, upper, lower)
logxtab # the confidence intervals are symmetric by construction
xtab <- inv.logit(logxtab)
xtab # back transformation gives asymmetric confidence intervals
Hinweis : Tatsächlich verwendet R die Betaverteilung, dies ist jedoch völlig gleichwertig und rechnerisch ein bisschen effizienter. Die Implementierung in R unterscheidet sich daher von dem, was ich hier zeige, ergibt jedoch genau das gleiche Ergebnis.
Um zu sehen, warum es nicht symmetrisch sein sollte, denken Sie an die Situation, in der und Sie in 10 Versuchen 9 Erfolge erzielen. Dann p = 0,9 und 95% CI für p ist [0,554, 0,997]. Die obere Grenze kann nicht größer als 1 sein offensichtlich, so dass die meisten der Unsicherheit muss auf der linken Seite fallen p .p=0.9 p^=0.9 p p^
quelle
@Joris erwähnte das symmetrische oder "asymptotische" Intervall, das höchstwahrscheinlich dasjenige ist, das Sie erwarten. @Joris erwähnte auch die "genauen" Clopper-Pearson-Intervalle und gab Ihnen einen Hinweis, der sehr schön aussieht. Es gibt ein weiteres Konfidenzintervall für Proportionen, auf die Sie wahrscheinlich stoßen werden (beachten Sie, dass es auch nicht symmetrisch ist), das "Wilson" -Intervall, eine Art asymptotisches Intervall, das auf der Invertierung des Score-Tests basiert. Die Endpunkte des Intervalls lösen (in ) die Gleichung ( p - p ) / √p
Wie auch immer, Sie können alle drei in R mit den folgenden erhalten:
Beachten Sie, dass die Methode "wilson" dasselbe Konfidenzintervall ist, das von prop.test ohne Yates 'Kontinuitätskorrektur verwendet wird:
Sehen Sie hier für Laura Thompson kostenlos SPLUS + R - Handbuch , das Agresti kategorische Datenanalyse , in der begleitet diese Fragen im Detail diskutiert werden.
quelle
Gibt es symmetrische Konfidenzintervalle für die Binomialverteilung: Uns wird trotz aller bereits genannten Gründe keine Asymmetrie aufgezwungen. Die symmetrischen Abstände gelten dabei meist als unterlegen
Obwohl sie numerisch symmetrisch sind , ist ihre Wahrscheinlichkeit nicht symmetrisch : Das heißt, ihre einseitigen Bedeckungen unterscheiden sich voneinander. Dies - eine notwendige Folge der möglichen Asymmetrie der Binomialverteilung - ist der springende Punkt.
Oft muss ein Endpunkt unrealistisch sein (kleiner als 0 oder größer als 1), wie @Rob Hyndman betont.
Trotzdem vermute ich, dass numerisch symmetrische CIs einige gute Eigenschaften haben könnten, zum Beispiel, dass sie unter bestimmten Umständen kürzer sind als die probabilistisch symmetrischen.
quelle
Die Binomialverteilung ist einfach nicht symmetrisch, diese Tatsache tritt jedoch besonders für hervorp in der Nähe von 0 oder 1 und für kleine n ; die meisten Leute benutzen es fürp ≤ 0,5 und so die Verwirrung.
quelle
Ich weiß, dass es eine Weile her ist, aber ich dachte, dass ich mich hier einschalten würde. Bei n und p ist es einfach, die Wahrscheinlichkeit einer bestimmten Anzahl von Erfolgen direkt unter Verwendung der Binomialverteilung zu berechnen. Man kann dann die Verteilung untersuchen, um festzustellen, dass sie nicht symmetrisch ist. Sie nähert sich der Symmetrie für großes np und großes n (1-p).
Man kann die Wahrscheinlichkeiten in den Schwänzen akkumulieren, um ein bestimmtes CI zu berechnen. Angesichts der diskreten Art der Verteilung muss die Anzahl der Erfolge interpoliert werden, um eine bestimmte Wahrscheinlichkeit in einem Tail zu finden (z. B. 2,5% für einen 95% -KI). Mit dieser Methode kann man CIs direkt ohne Approximation berechnen (außer der erforderlichen Interpolation).
quelle