Um das Konfidenzintervall (CI) für den Mittelwert mit unbekannter Populationsstandardabweichung (SD) zu berechnen, schätzen wir die Populationsstandardabweichung unter Verwendung der t-Verteilung. Bemerkenswerterweise ist wobei . Da wir jedoch keine Punktschätzung der Standardabweichung der Grundgesamtheit haben, schätzen wir durch die Näherungwobei
Kontrastierend zum Bevölkerungsanteil, die CI zu berechnen, nähern wir als wo bereitgestelltund
Meine Frage ist, warum wir mit der Standardverteilung für den Bevölkerungsanteil zufrieden sind?
Antworten:
Sowohl die Standard-Normal- als auch die Student-t-Verteilung sind eher schlechte Annäherungen an die Verteilung von
für kleinen, so schlecht, dass der Fehler die Unterschiede zwischen diesen beiden Verteilungen in den Schatten stellt.
Hier ist ein Vergleich aller drei Verteilungen (die Fälle , in denen das Weglassen p oder 1 - p Null sind, wobei das Verhältnis nicht definiert ist) , für n = 10 , p = 1 / 2 :p^ 1−p^ n=10,p=1/2:
Die "empirisch" Verteilung ist , dass derZ, die diskret sein müssen , da die Schätzwerte p des endlichen Satzes begrenzt sind { 0 , 1 / n , 2 / n , ... , n / n } .p^ {0,1/n,2/n,…,n/n}.
Diet Verteilung scheint eine bessere Annäherung zu leisten.
Fürn=30 und p=1/2, können Sie die Differenz zwischen dem Standardnormal und Student t - Distributionen sehen völlig vernachlässigbar ist:
Da die Student t-Verteilung komplizierter ist als die Standard-Normalverteilung (es ist wirklich eine ganze Familie von Verteilungen, die durch die "Freiheitsgrade" indiziert sind und früher ganze Kapitel von Tabellen anstelle einer einzelnen Seite erfordern), wird die Standard-Normalverteilung für fast alle verwendet Annäherungen.
quelle
Die Begründung für die Verwendung der t-Verteilung im Konfidenzintervall für einen Mittelwert beruht auf der Annahme, dass die zugrunde liegenden Daten einer Normalverteilung folgen, die bei der Schätzung der Standardabweichung zu einer Chi-Quadrat-Verteilung führt und somitx¯−μs/n√∼tn−1 . Dies ist ein genaues Ergebnis unter der Annahme, dass die Daten genau normal sind, was zu Konfidenzintervallen mit genau 95% Deckung bei Verwendung vont und weniger als 95% Deckung bei Verwendung vonz .
Im Fall von Wald - Intervallen für Proportionen, erhalten Sie nur asymptotische Normalität für p - pp^−pp^(1−p^)/n√ wenn n groß genug, die auf p abhängt. Die tatsächliche Überdeckungswahrscheinlichkeit des Verfahrens liegt, da die zugrunde liegenden Erfolgszahlen diskret sind, je nach unbekanntemp manchmal unter und manchmal über der nominalen Überdeckungswahrscheinlichkeit von 95%. Es gibt also keine theoretische Rechtfertigung für die Verwendung vont , und es gibt keine Garantie dafür, dass aus praktischer Sicht die Verwendung vont nur zur Erweiterung der Intervalle tatsächlich zu einer nominalen Abdeckung von 95% beiträgt.
Die Überdeckungswahrscheinlichkeit kann genau berechnet werden, obwohl es ziemlich einfach ist, sie zu simulieren. Das folgende Beispiel zeigt die simulierte Überdeckungswahrscheinlichkeit bei n = 35. Es zeigt, dass die Überdeckungswahrscheinlichkeit für die Verwendung des z-Intervalls im Allgemeinen etwas geringer als 0,95 ist, während die Überdeckungswahrscheinlichkeit für das t-Intervall im Allgemeinen etwas geringer als im Durchschnitt 0,95 sein kann, abhängig von Ihren vorherigen Annahmen zu den plausiblen Werten von p .
quelle
Sowohl AdamO als auch jsk geben eine großartige Antwort.
Ich würde versuchen, ihre Punkte mit einfachem Englisch zu wiederholen:
Wenn die zugrunde liegende Verteilung normal ist, gibt es zwei Parameter: Mittelwert und Varianz . Die T-Verteilung bietet eine Möglichkeit, auf den Mittelwert zu schließen, ohne den genauen Wert der Varianzen zu kennen. Anstatt tatsächliche Abweichungen zu verwenden, werden nur Stichprobenmittel und Stichproben verwendet benötigt. Da es sich um eine exakte Verteilung handelt, wissen Sie genau, was Sie erhalten. Mit anderen Worten ist die Überdeckungswahrscheinlichkeit korrekt. Die Verwendung von t spiegelt einfach den Wunsch wider, die unbekannte Populationsvarianz zu umgehen.
Wenn wir jedoch proportional schließen, ist die zugrunde liegende Verteilung binomisch. Um die genaue Verteilung zu erhalten, müssen Sie sich die Clopper-Pearson-Konfidenzintervalle ansehen. Die von Ihnen angegebene Formel ist die Formel für das Wald-Konfidenzintervall. Es verwendet , um die Normalverteilung annähernd die Binomialverteilung, weil Normalverteilung die Grenzverteilung der Binomialverteilung ist. In diesem Fall kommt es auf die empirische Leistung an, da Sie nur eine Annäherung vornehmen und die zusätzliche Präzision durch die Verwendung von t-Statistiken nicht mehr erforderlich ist. Wie in der Antwort von BruceET vorgeschlagen, ist die Agresti-Coull heutzutage eine einfache und Standardformel für eine solche Annäherung.
Mein Professor Dr. Longnecker von Texas A & M hat eine einfache Simulation durchgeführt, um zu veranschaulichen, wie die unterschiedliche Approximation im Vergleich zur binomialbasierten CI funktioniert.
Weitere Informationen finden Sie im Artikel Interval Estimation for a Binomial Proportion in Statistical Science , Vol. 16, S. 101-133, von L. Brown, T. Cai und A. DasGupta. Grundsätzlich wird AC CI für n> = 40 empfohlen.
quelle
Schließlich war es bekannt, dassT∼T(ν=n−1), n−1 σ X¯±t∗S/n−−√, ±t∗ T(n−1).
[n>30, t∗≈2≈1.96. S σ σ n>30,
quelle
Es sollte auch beachtet werden, dass diese Frage die von dieser Frage angeforderte Antwort widerspiegelt .
quelle