Ja, es gibt einige einfache Zusammenhänge zwischen Konfidenzintervallvergleichen und Hypothesentests in einer Vielzahl praktischer Einstellungen. Zusätzlich zur Überprüfung der CI-Verfahren und des t-Tests, die für unsere Daten geeignet sind, müssen wir überprüfen, dass die Stichprobengrößen nicht zu unterschiedlich sind und dass die beiden Sätze ähnliche Standardabweichungen aufweisen. Wir sollten auch nicht versuchen, hochpräzise p-Werte aus dem Vergleich zweier Konfidenzintervalle abzuleiten, sondern uns freuen, effektive Näherungen zu entwickeln.
Bei dem Versuch, die beiden bereits gegebenen Antworten (von @John und @Brett) in Einklang zu bringen, ist es hilfreich, mathematisch explizit zu sein. Eine Formel für ein symmetrisches zweiseitiges Konfidenzintervall, das für die Einstellung dieser Frage geeignet ist, lautet
CI=m±tα(n)sn−−√
Dabei ist m der Stichprobenmittelwert von n unabhängigen Beobachtungen, s die Standardabweichung der Stichprobe, 2α die gewünschte Testgröße (maximale falsch positive Rate) und tα(n) das obere 1−α Perzentil der Student-t-Verteilung mit n−1 Freiheitsgraden. (Diese geringfügige Abweichung von der konventionellen Schreibweise vereinfacht die Darstellung , da die Unterscheidung von n gegen n−1 , die ohnehin keine Rolle spielt, nicht weiter bearbeitet werden muss.)
Verwendung von tiefgestellten Indizes 1 und 2 zu unterscheiden , zwei unabhängige Sätze von Vergleichsdaten, mit 1 entsprechend dem größeren der beiden Mittel, ein nicht -overlap von Konfidenzintervallen wird durch die Ungleichung (untere Vertrauensgrenze 1) ausgedrückt > (obere Vertrauensgrenze 2 ); nämlich. ,
m1−tα(n1)s1n1−−√>m2+tα(n2)s2n2−−√.
Dies kann so gemacht werden, dass es wie die t-Statistik des entsprechenden Hypothesentests aussieht (um die beiden Mittelwerte zu vergleichen), was zu einfachen algebraischen Manipulationen führt
m1−m2s21/n1+s22/n2−−−−−−−−−−−√>s1n2−−√tα(n1)+s2n1−−√tα(n2)n1s22+n2s21−−−−−−−−−√.
Die linke Seite ist die im Hypothesentest verwendete Statistik. Es wird normalerweise mit einem Perzentil einer Student-t-Verteilung mit n1+n2 Freiheitsgraden verglichen, dh mit tα(n1+n2) . Die rechte Seite ist ein voreingenommener gewichteter Durchschnitt der ursprünglichen t-Verteilungsperzentile.
Die bisherige Analyse rechtfertigt die Antwort von @Brett: Es scheint keine einfache Beziehung zu geben. Lassen Sie uns jedoch weiter untersuchen. Ich bin begeistert zu tun, weil, intuitiv, eine Nicht-Überlappung von Konfidenzintervallen sollte etwas sagen!
Beachten Sie zunächst, dass diese Form des Hypothesentests nur dann gültig ist, wenn wir erwarten, dass s1 und s2 mindestens annähernd gleich sind. (Andernfalls stoßen wir auf das berüchtigte Behrens-Fisher-Problem und seine Komplexität.) Wenn wir die ungefähre Gleichheit von si prüfen , können wir eine ungefähre Vereinfachung in der Form erstellen
m1−m2s1/n1+1/n2−−−−−−−−−−√>n2−−√tα(n1)+n1−−√tα(n2)n1+n2−−−−−−√.
Hier ist s≈s1≈s2 . Realistisch gesehen sollten wir nicht erwarten, dass dieser informelle Vergleich von Vertrauensgrenzen dieselbe Größe wie α . Unsere Frage ist dann, ob es ein α′ so dass die rechte Seite (zumindest näherungsweise) der korrekten t-Statistik entspricht. Für was α′ ist das der Fall?
tα′(n1+n2)=n2−−√tα(n1)+n1−−√tα(n2)n1+n2−−−−−−√?
Es stellt sich heraus, dass α und α′ bei gleichen Stichprobengrößen durch ein Potenzgesetz (mit ziemlich hoher Genauigkeit) verbunden sind. Zum Beispiel ist hier ein Log-Log-Plot der beiden für die Fälle n1=n2=2 (unterste blaue Linie), n1=n2=5 (mittlere rote Linie), n1=n2=∞ ( höchste Goldlinie). Die mittlere grüne gestrichelte Linie ist eine Annäherung, die unten beschrieben wird. Die Geradheit dieser Kurven widerspricht einem Potenzgesetz. Sie variiert mit n=n1=n2 , aber nicht viel.
Die Antwort hängt zwar von der Menge {n1,n2} , es ist jedoch selbstverständlich, sich zu fragen, wie stark sie sich bei Änderungen der Stichprobengröße tatsächlich ändert. Insbesondere können wir hoffen, dass bei moderaten bis großen Stichprobengrößen (möglicherweise n1≥10,n2≥10 oder so) die Stichprobengröße kaum einen Unterschied macht. In diesem Fall könnten wir einen quantitativen Weg entwickeln, um α′ mit α in Beziehung zu setzen .
Dieser Ansatz hat sich bewährt, sofern die Stichprobengrößen nicht zu stark voneinander abweichen. Der Einfachheit halber werde ich eine Omnibusformel zur Berechnung der Testgröße α′ angeben, die der Konfidenzintervallgröße α . Es ist
α′≈eα1.91;
das ist,
α′≈exp(1+1.91log(α)).
Diese Formel funktioniert in den folgenden Situationen recht gut:
Beide Stichprobengrößen liegen nahe beieinander, n1≈n2 , und α ist nicht zu extrem ( α>.001 oder so).
Eine Stichprobengröße liegt innerhalb des Dreifachen der anderen und die kleinste ist nicht zu klein (ungefähr größer als 10 ) und α ist wiederum nicht zu extrem.
Eine Stichprobengröße liegt innerhalb des Dreifachen der anderen und α>.02 oder so.
Hier ist der relative Fehler (korrekter Wert dividiert durch die Approximation) in der ersten Situation aufgetragen, wobei die untere (blaue) Linie den Fall n1=n2=2 , die mittlere (rote) Linie den Fall n1=n2=5 und die obere (goldene) Linie der Fall n1=n2=∞ . Interpoliert man die beiden letzteren, so zeigt sich, dass die Approximation für einen weiten Bereich praktischer Werte von α hervorragend ist, wenn die Stichprobengröße moderat ist (etwa 5-50) und ansonsten einigermaßen gut ist.
Dies ist mehr als gut genug, um eine Reihe von Konfidenzintervallen in Augenschein zu nehmen.
Zusammenfassend lässt sich sagen , dass das Versagen von zwei Konfidenzintervallen mit 2α agr ; -Größe der Mittelwerte, die sich überlappen, ein signifikanter Hinweis auf einen Mittelwertunterschied auf einem Niveau von 2eα1.91 , vorausgesetzt, die beiden Stichproben haben ungefähr gleiche Standardabweichungen und sind ungefähr gleich groß .
Ich werde mit einer Tabelle der Approximation für gemeinsame Werte von 2α enden .
2α 2α′
0,1 0,02
0,05 0,005
0,01 0,0002
0,005 0,00006
2α=.05p<.005n.0037n=2.0056n=∞
Dieses Ergebnis rechtfertigt (und ich hoffe, es verbessert sich) die Antwort von @John. Obwohl die vorherigen Antworten widersprüchlich zu sein scheinen, sind beide (auf ihre Weise) korrekt.
Unter typischen Annahmen gleicher Varianz gibt es eine Beziehung. Wenn sich die Balken um weniger als die Länge eines Balkens * sqrt (2) überlappen, würden sie sich bei einem t-Test bei alpha = 0,05 signifikant unterscheiden. Wenn sich die Enden der Balken kaum berühren, ergibt sich ein Unterschied von 0,01. Wenn die Konfidenzintervalle für die Gruppen nicht gleich sind, nimmt man normalerweise den Durchschnitt und wendet die gleiche Regel an.
Wenn alternativ die Breite eines Konfidenzintervalls um eines der Mittel w ist, ist der geringste signifikante Unterschied zwischen zwei Werten w * sqrt (2). Dies ist einfach, wenn Sie an den Nenner in der unabhängigen Gruppe t-test, sqrt (2 * MSE / n), und den Faktor für das CI, sqrt (MSE / n), denken.
(95% CIs angenommen)
Es ist ein einfaches Papier auf Rückschlüsse aus Konfidenzintervall um unabhängige Mittel hier . Es wird diese und viele andere verwandte Fragen beantworten.
Cumming, G. & Finch, S. (2005, März). Inferenz mit dem Auge: Konfidenzintervalle und wie man Datenbilder liest. American Psychologist , 60 (2), 170 & ndash; 180.
quelle