Warum verwenden wir die t-Verteilung nicht, um ein Konfidenzintervall für eine Proportion zu erstellen?

18

Um das Konfidenzintervall (CI) für den Mittelwert mit unbekannter Populationsstandardabweichung (SD) zu berechnen, schätzen wir die Populationsstandardabweichung unter Verwendung der t-Verteilung. Bemerkenswerterweise ist CI=X¯±Z95%σX¯ wobei σX¯=σn . Da wir jedoch keine Punktschätzung der Standardabweichung der Grundgesamtheit haben, schätzen wir durch die NäherungCI=X¯±t95%(se)wobeise=sn

Kontrastierend zum Bevölkerungsanteil, die CI zu berechnen, nähern wir als CI=p^±Z95%(se) wo se=p^(1p^)n bereitgestelltnp^15undn(1p^)15

Meine Frage ist, warum wir mit der Standardverteilung für den Bevölkerungsanteil zufrieden sind?

Abhijit
quelle
1
Meiner Intuition nach liegt dies daran, dass Sie den Standardfehler des Mittelwerts erhalten, den Sie als zweites Unbekanntes haben, , der aus der Stichprobe geschätzt wird, um die Berechnung abzuschließen. Der Standardfehler für den Anteil beinhaltet keine zusätzlichen Unbekannten. σ
Setzen Sie Monica - G. Simpson
@ GavinSimpson Klingt überzeugend. Der Grund, warum wir die t-Verteilung eingeführt haben, ist die Kompensation des Fehlers, der zur Kompensation der Standardabweichungsnäherung eingeführt wurde.
Abhijit
3
Ich finde dies zum Teil weniger überzeugend, weil die Verteilung aus der Unabhängigkeit der Stichprobenvarianz und des Stichprobenmittelwerts in Stichproben einer Normalverteilung resultiert, während für Stichproben einer Binomialverteilung die beiden Größen nicht unabhängig sind. t
whuber
@Abhijit Einige Lehrbücher verwenden eine t-Verteilung als Annäherung für diese Statistik (unter bestimmten Bedingungen) - sie scheinen n-1 als df zu verwenden. Obwohl ich noch kein gutes formales Argument dafür sehe, scheint die Annäherung oft recht gut zu funktionieren; für die Fälle, die ich überprüft habe, ist es normalerweise etwas besser als die normale Näherung (aber dafür gibt es ein solides asymptotisches Argument, das der t-Näherung fehlt). [Edit: Meine eigenen Schecks ähnelten mehr oder weniger denen von Whubershows. Der Unterschied zwischen dem z und dem t ist weitaus geringer als die Abweichung von der Statistik.]
Glen_b
1
Es kann sein, dass es ein mögliches Argument gibt (möglicherweise basierend auf frühen Begriffen einer Serienerweiterung), das beweisen könnte, dass das t fast immer besser sein sollte, oder dass es möglicherweise unter bestimmten Bedingungen besser sein sollte, aber ich Ich habe kein Argument dieser Art gesehen. Persönlich halte ich mich im Allgemeinen an das z, aber ich mache mir keine Sorgen, wenn jemand ein t verwendet.
Glen_b

Antworten:

20

Sowohl die Standard-Normal- als auch die Student-t-Verteilung sind eher schlechte Annäherungen an die Verteilung von

Z=p^pp^(1p^)/n

für kleine n, so schlecht, dass der Fehler die Unterschiede zwischen diesen beiden Verteilungen in den Schatten stellt.

Hier ist ein Vergleich aller drei Verteilungen (die Fälle , in denen das Weglassen p oder 1 - p Null sind, wobei das Verhältnis nicht definiert ist) , für n = 10 , p = 1 / 2 :p^1p^n=10,p=1/2:

Abbildung 1

Die "empirisch" Verteilung ist , dass der Z, die diskret sein müssen , da die Schätzwerte p des endlichen Satzes begrenzt sind { 0 , 1 / n , 2 / n , ... , n / n } .p^{0,1/n,2/n,,n/n}.

Die t Verteilung scheint eine bessere Annäherung zu leisten.

Für n=30 und p=1/2, können Sie die Differenz zwischen dem Standardnormal und Student t - Distributionen sehen völlig vernachlässigbar ist:

Figur 2

Da die Student t-Verteilung komplizierter ist als die Standard-Normalverteilung (es ist wirklich eine ganze Familie von Verteilungen, die durch die "Freiheitsgrade" indiziert sind und früher ganze Kapitel von Tabellen anstelle einer einzelnen Seite erfordern), wird die Standard-Normalverteilung für fast alle verwendet Annäherungen.

whuber
quelle
2
Qualitätsantwort. +1
Demetri Pananos
10

Die Begründung für die Verwendung der t-Verteilung im Konfidenzintervall für einen Mittelwert beruht auf der Annahme, dass die zugrunde liegenden Daten einer Normalverteilung folgen, die bei der Schätzung der Standardabweichung zu einer Chi-Quadrat-Verteilung führt und somit x¯μs/ntn1. Dies ist ein genaues Ergebnis unter der Annahme, dass die Daten genau normal sind, was zu Konfidenzintervallen mit genau 95% Deckung bei Verwendung vontund weniger als 95% Deckung bei Verwendung vonz.

Im Fall von Wald - Intervallen für Proportionen, erhalten Sie nur asymptotische Normalität für p - pp^pp^(1p^)/nwenn n groß genug, die auf p abhängt. Die tatsächliche Überdeckungswahrscheinlichkeit des Verfahrens liegt, da die zugrunde liegenden Erfolgszahlen diskret sind, je nach unbekanntempmanchmal unter und manchmal über der nominalen Überdeckungswahrscheinlichkeit von 95%. Es gibt also keine theoretische Rechtfertigung für die Verwendung vont, und es gibt keine Garantie dafür, dass aus praktischer Sicht die Verwendung vontnur zur Erweiterung der Intervalle tatsächlich zu einer nominalen Abdeckung von 95% beiträgt.

Die Überdeckungswahrscheinlichkeit kann genau berechnet werden, obwohl es ziemlich einfach ist, sie zu simulieren. Das folgende Beispiel zeigt die simulierte Überdeckungswahrscheinlichkeit bei n = 35. Es zeigt, dass die Überdeckungswahrscheinlichkeit für die Verwendung des z-Intervalls im Allgemeinen etwas geringer als 0,95 ist, während die Überdeckungswahrscheinlichkeit für das t-Intervall im Allgemeinen etwas geringer als im Durchschnitt 0,95 sein kann, abhängig von Ihren vorherigen Annahmen zu den plausiblen Werten von p .

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben

jsk
quelle
3
+1 Dies sind hervorragende Darstellungen der Behauptungen, die ich über die relative Genauigkeit von Student t- und Normal CIs gemacht habe (die nur auf der Überprüfung von CDF-Diagrammen und nicht auf strengen Demonstrationen basieren).
Whuber
6

Sowohl AdamO als auch jsk geben eine großartige Antwort.

Ich würde versuchen, ihre Punkte mit einfachem Englisch zu wiederholen:

Wenn die zugrunde liegende Verteilung normal ist, gibt es zwei Parameter: Mittelwert und Varianz . Die T-Verteilung bietet eine Möglichkeit, auf den Mittelwert zu schließen, ohne den genauen Wert der Varianzen zu kennen. Anstatt tatsächliche Abweichungen zu verwenden, werden nur Stichprobenmittel und Stichproben verwendet benötigt. Da es sich um eine exakte Verteilung handelt, wissen Sie genau, was Sie erhalten. Mit anderen Worten ist die Überdeckungswahrscheinlichkeit korrekt. Die Verwendung von t spiegelt einfach den Wunsch wider, die unbekannte Populationsvarianz zu umgehen.

Wenn wir jedoch proportional schließen, ist die zugrunde liegende Verteilung binomisch. Um die genaue Verteilung zu erhalten, müssen Sie sich die Clopper-Pearson-Konfidenzintervalle ansehen. Die von Ihnen angegebene Formel ist die Formel für das Wald-Konfidenzintervall. Es verwendet , um die Normalverteilung annähernd die Binomialverteilung, weil Normalverteilung die Grenzverteilung der Binomialverteilung ist. In diesem Fall kommt es auf die empirische Leistung an, da Sie nur eine Annäherung vornehmen und die zusätzliche Präzision durch die Verwendung von t-Statistiken nicht mehr erforderlich ist. Wie in der Antwort von BruceET vorgeschlagen, ist die Agresti-Coull heutzutage eine einfache und Standardformel für eine solche Annäherung.

Mein Professor Dr. Longnecker von Texas A & M hat eine einfache Simulation durchgeführt, um zu veranschaulichen, wie die unterschiedliche Approximation im Vergleich zur binomialbasierten CI funktioniert.

Vergleich verschiedener 95% -KI's für den Anteil

Weitere Informationen finden Sie im Artikel Interval Estimation for a Binomial Proportion in Statistical Science , Vol. 16, S. 101-133, von L. Brown, T. Cai und A. DasGupta. Grundsätzlich wird AC CI für n> = 40 empfohlen.

Bildbeschreibung hier eingeben

Qilin Wang
quelle
3

X1,X2,XnμσH0:μ=μ0Ha:μμ0Z=X¯μ0σ/n.H0ZNorm(0,1),H0|Z|1.96.

μμ0μ.X¯±1.96σ/n,±1.96

σS,T=X¯μ0S/n.TnSσ.

Schließlich war es bekannt, dass TT(ν=n1),n1σX¯±tS/n,±tT(n1).

[n>30,t21.96.Sσσn>30,

Xnp^=X/np.H0:p=p0Ha:pp>0,Z=p^p0p0(1p0)/n.H0,ZaprxNorm(0,1).H0|Z|1.96.

p,p^±1.96p(1p)n.pn,p^p.p^±1.96p^(1p^)n.n

nˇ=n+4pˇ=(X+2)/nˇpˇ±1.96pˇ(1pˇ)nˇ.

μp

Sσσ

p^pp^p.pn.

BruceET
quelle
2

σ

σ

σ

σ

Es sollte auch beachtet werden, dass diese Frage die von dieser Frage angeforderte Antwort widerspiegelt .

AdamO
quelle
2
Das unter veröffentlichte Pseudonym Gosset war "Student", nicht "Student-T". Er hat sich auch nicht die Standard-T-Verteilung selbst ausgedacht, noch die Statistik, mit der er sich tatsächlich befasst hat (er hat äquivalente Dinge getan, im Wesentlichen mit einem skalierten T, aber fast der gesamte Formalismus, den wir jetzt haben, kommt aus Fischers Arbeit). Fisher hat die Statistik so geschrieben, wie wir sie geschrieben haben. Fisher nannte es das t. Fisher leitete die Verteilung der Statistik formal ab (wobei Gossets Kombination aus Algebra, Intuition und zugehörigem Simulationsargument zu seiner Version der Statistik korrekt war)
Glen_b
1
Siehe Gosset 1908 Papier hier: archive.org/details/biometrika619081909pear/page/n13 - es ist auch ein schönes lesbar pdf des Papiers nochmals gemacht in LaTeX hier . Beachten Sie, dass dies nicht urheberrechtlich geschützt ist, da es mehr als ein paar Jahre vor Steamboat Willie liegt .
Glen_b
@ Glen_b Danke! Ich habe die scheinbar falschen Anekdoten zur Geschichte gelöscht.
AdamO