Bleiben wir bei einer idealen Situation mit Zufallsstichproben, Gaußschen Populationen, gleichen Varianzen, keinem P-Hacking usw.
Schritt 1. Sie führen ein Experiment durch, indem Sie beispielsweise zwei Stichprobenmittelwerte vergleichen und ein 95% -Konfidenzintervall für die Differenz zwischen den beiden Populationsmitteln berechnen.
Schritt 2. Sie führen viel mehr Experimente durch (Tausende). Der Unterschied zwischen den Mitteln variiert von Experiment zu Experiment aufgrund von Zufallsstichproben.
Frage: Welcher Bruchteil der Differenz zwischen Mitteln aus der Sammlung von Experimenten in Schritt 2 liegt im Konfidenzintervall von Schritt 1?
Das kann nicht beantwortet werden. Es hängt alles davon ab, was in Schritt 1 passiert ist. Wenn dieses Experiment in Schritt 1 sehr untypisch war, ist die Antwort auf die Frage möglicherweise sehr niedrig.
Stellen Sie sich also vor, dass beide Schritte viele Male wiederholt werden (wobei Schritt 2 viele Male wiederholt wird). Nun sollte es möglich sein, sich eine Erwartung zu machen, für welchen Bruchteil von Wiederholungsexperimenten im Durchschnitt eine Effektgröße innerhalb des 95% -Konfidenzintervalls des ersten Experiments vorliegt.
Es scheint, dass die Antwort auf diese Fragen verstanden werden muss, um die Reproduzierbarkeit von Studien zu bewerten, ein sehr heißer Bereich.
quelle
Antworten:
Analyse
Da dies eine konzeptionelle Frage ist, wollen wir der Einfachheit halber die Situation betrachten, in der ein Konfidenzintervall [ ˉ x ( 1 ) + Z α / 2 s ( 1 ) / √1−α wird für einen Mittelwertμ unterVerwendung einer Zufallsstichprobex(1)der Größenkonstruiertund eine zweite Zufallsstichprobex(2)der Größemwird aus derselben Normalverteilung(μ,σ2)entnommen. (Wenn Sie möchten, können Sie dieZs durch Werte aus der Studentt-Verteilung vonn-1Freiheitsgradenersetzen. Die folgende Analyse wird sich nicht ändern.)
Die Chance, dass der Mittelwert der zweiten Stichprobe innerhalb des vom ersten bestimmten CI liegt, ist
Da der Mittelwert der ersten Stichprobe unabhängig von der Standardabweichung der ersten Stichprobe s ( 1 ) ist (dies erfordert Normalität) und die zweite Stichprobe unabhängig von der ersten Stichprobe ist, bedeutet die Differenz der Stichproben U = ˉ x ( 2 ) - ˉ x ( 1 ) ist unabhängig von s ( 1 ) . Außerdem ist für dieses symmetrische Intervall Z α / 2 = - Z 1 - α / 2x¯(1) s(1) U=x¯(2)−x¯(1) s(1) Zα/2=−Z1−α/2 . Wenn man also für die Zufallsvariable s ( 1 ) schreibt und beide Ungleichungen quadriert, ist die fragliche Wahrscheinlichkeit die gleiche wieS s(1)
Die Erwartungsgesetze implizieren, dass einen Mittelwert von 0 und eine Varianz von hatU 0
Da eine lineare Kombination von Normalvariablen ist, hat es auch eine Normalverteilung. Daher U 2 ist , σ 2 ( 1U U2 σ2(1n+1m) times a χ2(1) variable. We already knew that S2 is σ2/n times a χ2(n−1) variable. Consequently, U2/S2 is 1/n+1/m times a variable with an F(1,n−1) distribution. The required probability is given by the F distribution as
Discussion
An interesting case is when the second sample is the same size as the first, so thatn/m=1 and only n and α determine the probability. Here are the values of (1) plotted against α for n=2,5,20,50 .
The graphs rise to a limiting value at eachα as n increases. The traditional test size α=0.05 is marked by a vertical gray line. For largish values of n=m , the limiting chance for α=0.05 is around 85% .
By understanding this limit, we will peer past the details of small sample sizes and better understand the crux of the matter. Asn=m grows large, the F distribution approaches a χ2(1) distribution. In terms of the standard Normal distribution Φ , the probability (1) then approximates
For instance, withα=0.05 , Zα/2/2–√≈−1.96/1.41≈−1.386 and Φ(−1.386)≈0.083 . Consequently the limiting value attained by the curves at α=0.05 as n increases will be 1−2(0.083)=1−0.166=0.834 . You can see it has almost been reached for n=50 (where the chance is 0.8383… .)
For smallα , the relationship between α and the complementary probability--the risk that the CI does not cover the second mean--is almost perfectly a power law. Another way to express this is that the log complementary probability is almost a linear function of logα . The limiting relationship is approximately
In other words, for largen=m and α anywhere near the traditional value of 0.05 , (1) will be close to
(This reminds me very much of the analysis of overlapping confidence intervals I posted at /stats//a/18259/919. Indeed, the magic power there,1.91 , is very nearly the reciprocal of the magic power here, 0.557 . At this point you should be able to re-interpret that analysis in terms of reproducibility of experiments.)
Experimental results
These results are confirmed with a straightforwward simulation. The following(1) , and a Z-score to assess how much they differ. The Z-scores are typically less than 2 in size, regardless of n,m,μ,σ,α (or even whether a Z or t CI is computed), indicating the correctness of formula (1) .
R
code returns the frequency of coverage, the chance as computed withquelle
qt
line in the code.[Edited to fix the bug WHuber pointed out.]
I altered @Whuber's R code to use the t distribution, and plot coverage as a function of sample size. The results are below. At high sample size, the results match WHuber's of course.
And here is the adapted R code, run twice with alpha set to either 0.01 or 0.05.
And here is the GraphPad Prism file that made the graph.
quelle
T
outside the loop! If you would like to see the correct curves, just plot them directly using the theoretical result in my answer, as given at the end of myR
code (rather than relying on the simulated results):curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")