Wie ist das Konfidenzintervall der Mittelwertdifferenz in einem Stichproben-T-Test zu interpretieren?

21

SPSS liefert die Ausgabe "Konfidenzintervall der Differenzmittel". Ich habe an einigen Stellen gelesen, dass es bedeutet, dass "95 mal von 100, unsere mittlere Stichprobendifferenz wird zwischen diesen Grenzen liegen". Ich finde dies unklar. Kann jemand eine klarere Formulierung vorschlagen, um das "Konfidenzintervall der Mittelwertdifferenz" zu erklären? Diese Ausgabe erscheint im Kontext eines T-Tests mit einer Stichprobe.

Anne
quelle
1
Was ist Ihre Interpretation?
mpiktas
1
Beachten Sie, dass dieses Verhältnis nichts Besonderes ist: Ein CI für die Schätzung von irgendetwas wird auf ähnliche Weise interpretiert. (Je nachdem, was geschätzt wird, können jedoch unterschiedliche Verfahren zum Erstellen des CIs verwendet werden.) Folglich ist diese Frage genau die gleiche wie bei früheren Fragen zur Interpretation von CIs.
Whuber

Antworten:

13

Dies ist selbst für angesehene Statistiker keine leichte Aufgabe. Schauen Sie sich einen kürzlich von Nate Silver unternommenen Versuch an :

... wenn ich Sie bitten würde, mir zu sagen, wie oft Ihr Pendelverkehr 10 Minuten länger dauert als der Durchschnitt - etwas, das eine Version eines Konfidenzintervalls erfordert -, müssen Sie ein wenig darüber nachdenken, ...

(aus der Fünfunddreißig Blog in der New York Times vom 29.9.10.) Dies ist kein Konfidenzintervall. Je nachdem, wie Sie es interpretieren, handelt es sich entweder um ein Toleranzintervall oder ein Vorhersageintervall. (Ansonsten hat Mr. Silver nichts damit zu tun, wie Wahrscheinlichkeiten geschätzt werden. Es ist eine gute Lektüre.) Viele andere Websites (insbesondere Websites mit Investitionsschwerpunkt) verwechseln Konfidenzintervalle mit anderen Intervallarten.

Die New York Times hat Anstrengungen unternommen, um die Bedeutung der von ihr erstellten statistischen Ergebnisse zu klären und darüber zu berichten. Das Kleingedruckte unter vielen Umfragen enthält etwa Folgendes:

Theoretisch weichen in 19 von 20 Fällen die auf diesen Stichproben basierenden Ergebnisse aller Erwachsenen um nicht mehr als drei Prozentpunkte in beide Richtungen von den Ergebnissen ab, die bei der Befragung aller amerikanischen Erwachsenen erzielt worden wären.

( ZB , wie die Umfrage wurde durchgeführt , , 2011.05.02.)

Vielleicht ein bisschen wortreich, aber klar und genau: Diese Aussage charakterisiert die Variabilität der Stichprobenverteilung der Umfrageergebnisse. Das nähert sich der Idee des Konfidenzintervalls, ist aber noch nicht ganz da. Man könnte jedoch in vielen Fällen in Betracht ziehen, eine solche Formulierung anstelle von Konfidenzintervallen zu verwenden.

Wenn im Internet so viel Verwirrung herrscht, ist es nützlich, sich an maßgebliche Quellen zu wenden. Einer meiner Favoriten ist Freedman, Pisani & Purves 'bewährter Text Statistics. In seiner vierten Ausgabe wird es seit über 30 Jahren an Universitäten eingesetzt und zeichnet sich durch klare, klare Erklärungen und die Konzentration auf klassische "frequentistische" Methoden aus. Mal sehen, was es über die Interpretation von Konfidenzintervallen aussagt:

Das Konfidenzniveau von 95% sagt etwas über das Stichprobenverfahren aus ...

[auf S. 384; Alle Zitate stammen aus der dritten Auflage (1998)]. Es geht weiter,

Wenn die Stichprobe anders ausgefallen wäre, wäre das Konfidenzintervall anders ausgefallen. ... Bei etwa 95% aller Stichproben deckt das Intervall ... den Bevölkerungsanteil ab, bei den anderen 5% nicht.

[p. 384]. Der Text sagt viel mehr über Konfidenzintervalle aus, aber dies ist ausreichend, um zu helfen: Sein Ansatz besteht darin, den Diskussionsfokus auf die Stichprobe zu verlagern und die Aussagen gleichzeitig strenger und klarer zu gestalten. Wir könnten daher dasselbe in unserer eigenen Berichterstattung versuchen. Wenden wir diesen Ansatz beispielsweise auf die Beschreibung eines Konfidenzintervalls von [34%, 40%] um einen angegebenen prozentualen Unterschied in einem hypothetischen Experiment an:

Dieses Experiment verwendete eine zufällig ausgewählte Stichprobe von Probanden und eine zufällige Auswahl von Kontrollen. Wir berichten über ein Konfidenzintervall von 34% bis 40% für die Differenz. Dies quantifiziert die Zuverlässigkeit des Experiments: wenn die Auswahl von Probanden und Kontrollen unterschiedlich gewesen wäre Dieses Konfidenzintervall würde sich ändern, um die Ergebnisse für die ausgewählten Probanden und Kontrollen wiederzugeben. In 95% dieser Fälle würde das Konfidenzintervall den wahren Unterschied (zwischen allen Probanden und allen Kontrollen) enthalten, in den anderen 5% der Fälle nicht Daher ist es wahrscheinlich - aber nicht sicher -, dass dieses Konfidenzintervall den wahren Unterschied enthält: Das heißt, wir glauben, dass der wahre Unterschied zwischen 34% und 40% liegt. "

(Dies ist mein Text, der sicherlich verbessert werden kann: Ich lade Redakteure ein, daran zu arbeiten.)

Eine lange Aussage wie diese ist etwas unhandlich. In tatsächlichen Berichten wurde der größte Teil des Kontexts - Stichproben, Probanden und Kontrollen, Möglichkeit der Variabilität - bereits festgelegt, sodass die Hälfte der vorhergehenden Aussage nicht mehr erforderlich ist. Wenn der Bericht feststellt, dass es Stichprobenvariabilität gibt und ein Wahrscheinlichkeitsmodell für die Stichprobenergebnisse zeigt, ist es normalerweise nicht schwierig, ein Konfidenzintervall (oder ein anderes zufälliges Intervall) so klar und genau zu erklären, wie es das Publikum benötigt.

whuber
quelle
Danke Whuber, ich verstehe Vertrauensbereiche für einen Mittelwert ganz gut. Es ist das CI für einen Mittelwertunterschied (zwischen einer Stichprobe und Pop), bei dem ich verwirrt bin.
Anne
@ Anne Worauf beziehen Sie sich? Weder Ihre Frage noch eine der Antworten beziehen sich auf einen Unterschied zwischen einem Stichprobenmittelwert und einem Bevölkerungsmittelwert, soweit ich das beurteilen kann. Ihre Frage scheint sich auf den Unterschied zwischen zwei Stichprobenmitteln zu beziehen (möglicherweise zwischen dem Mittelwert einer Gruppe von Versuchspersonen und einer Gruppe von Kontrollen).
Whuber
Das Beispiel, an das ich denke, ist, wo Sie einen Unterschied zwischen einer Stichprobe und dem Populationsmittel suchen. Was genau bedeutet in diesem Fall das CI zwischen Sample und Pop? Wir haben den Stichprobenmittelwert verwendet, um die Pop-Standardabweichung zu schätzen, und daher schätzen wir den CI um den Mittelwert. Die Differenz der Mittelwerte ist nicht die Differenz zwischen dem von uns angegebenen Pop-Mittelwert und dem Stichprobenmittelwert. Also, was ist es?
Anne
1
@Anne Ist der "Bevölkerungsmittelwert" der hypothetische, unbekannte Mittelwert der zu beprobenden Bevölkerung oder der gemessene Mittelwert einer anderen Bevölkerung, die umfassend beprobt wurde? Auch in welchem Sinne haben Sie dabei den „Stichprobenmittelwert “ , um die Bevölkerung zu schätzen Standardabweichung ? Ist das vielleicht ein Tippfehler?
whuber
2
@whuber danke. Ihre Zeile "Die für 95% aller Stichproben berechneten CIs (d. H. 95% aller möglichen Replikationen) decken diesen wahren Unterschied ab." ist mir klarer als "95 mal von 100, unser Stichprobenmittelwert liegt zwischen diesen Grenzen" und Ihre Erklärung ist logisch sinnvoll.
Anne
5

Aus pedantischer technischer Sicht glaube ich nicht, dass es einen "klaren Wortlaut" für die Interpretation von Konfidenzintervallen gibt.

Ich würde ein Konfidenzintervall folgendermaßen interpretieren: Es besteht eine 95% ige Wahrscheinlichkeit, dass das 95% ige Konfidenzintervall die wahre mittlere Differenz abdeckt

NN verschiedene Konfidenzintervalle . Das Konfidenzniveau ist der Anteil dieser Intervalle, der die wahre mittlere Differenz enthält.

Meine persönliche Auseinandersetzung mit der Logik solcher Überlegungen ist, dass diese Erklärung der Konfidenzintervalle erfordert, dass wir die anderen ignorierenN-1 Stichproben bei der Berechnung unseres Konfidenzintervalls . Wenn Sie beispielsweise eine Stichprobengröße von 100 hätten, würden Sie dann 100 95% -Konfidenzintervalle mit einer Stichprobe berechnen?

Beachten Sie jedoch, dass dies alles in der Philosophie liegt. Konfidenzintervalle lassen sich meiner Meinung nach nur vage erklären. Bei sachgemäßer Anwendung erzielen sie gute Ergebnisse.

Wahrscheinlichkeitslogik
quelle
Beginnen eines neuen Satzes nach "N verschiedenen Konfidenzintervallen". fließt nicht gut mit "Sie können dies weiter interpretieren als sagen ...". Ich schlage vor, den dritten Absatz zu ändern.
Theta30,
2
Ihr dritter Absatz ist viel besser als der zweite. Abhängig von den beobachteten Daten enthält das Konfidenzintervall entweder den wahren Parameterwert oder nicht.
Kardinal
@probabilityislogic: Da diese Antwort akzeptiert wurde, sollten Sie Ihren zweiten Absatz überarbeiten. Können Sie bitte auch klarstellen, was Sie in Ihrem vorletzten Absatz meinen? Wie es heißt, bin ich mir nicht ganz sicher, welches Argument Sie vorbringen.
Kardinal
Wenn wir Konfidenzintervalle als "Wiederholung" des Experiments interpretieren, müssen wir frühere Experimente in diesen Wiederholungen ignorieren. Mein Punkt ist: Warum ist die Unkenntnis früherer Experimente in diesen "Wiederholungen" von Konfidenzintervallen gut für die Datensätze, die wir nicht beobachtet haben, aber wir müssen die Daten für die von uns beobachteten Daten zusammenfassen? Wäre es nicht genauso sinnvoll (nach meinem Verständnis der CI-Interpretation), mit den vorhandenen Daten so viele CIs wie möglich zu erstellen?
Wahrscheinlichkeitslogik
1
Es gibt eine ganze Theorie, die weitgehend parallel zur optimalen Entscheidungstheorie ist und die genauesten Konfidenzmengen beschreibt. Vielleicht fehlt Ihnen das Puzzleteil. (?)
Kardinal
3

Die grobe Antwort auf die Frage lautet, dass Sie mit einem 95% -Konfidenzintervall zu 95% sicher sein können, dass der wahre Parameterwert innerhalb des Intervalls liegt. Diese grobe Antwort ist jedoch sowohl unvollständig als auch ungenau.

Die Unvollständigkeit liegt in der Tatsache, dass nicht klar ist, dass "95% zuversichtlich" irgendetwas Konkretes bedeutet, oder wenn dies der Fall ist, würde diese konkrete Bedeutung auch von einer kleinen Stichprobe von Statistikern nicht allgemein anerkannt. Die Bedeutung von Vertrauen hängt davon ab, mit welcher Methode das Intervall ermittelt wurde und welches Inferenzmodell verwendet wird (was hoffentlich weiter unten klarer wird).

Die Ungenauigkeit liegt in der Tatsache, dass viele Konfidenzintervalle nichts über die Position des wahren Parameterwerts für den bestimmten experimentellen Fall aussagen, der das Konfidenzintervall ergab! Das wird für viele überraschend sein, aber es folgt direkt aus der Neyman-Pearson-Philosophie, die in diesem Zitat aus ihrer Arbeit von 1933 "Über das Problem der effizientesten Tests statistischer Hypothesen" klar zum Ausdruck kommt:

Wir neigen zu der Annahme, dass in Bezug auf eine bestimmte Hypothese kein auf der Wahrscheinlichkeitstheorie basierender Test für sich allein einen wertvollen Beweis für die Wahrheit oder die Falschheit dieser Hypothese liefern kann.

Aber wir können den Zweck von Tests aus einem anderen Blickwinkel betrachten. Ohne zu wissen, ob jede einzelne Hypothese richtig oder falsch ist, können wir nach Regeln suchen, die unser Verhalten in Bezug auf sie bestimmen. Dabei stellen wir sicher, dass wir auf lange Sicht nicht zu oft falsch liegen werden.

Intervalle, die auf der "Inversion" von NP-Hypothesentests basieren, erben daher von diesem Test die Natur, Langzeitfehlereigenschaften zu kennen, ohne Rückschlüsse auf die Eigenschaften des Experiments zuzulassen, das sie ergab! Ich verstehe, dass dies vor induktiven Schlüssen schützt, die Neyman anscheinend für einen Gräuel hielt.

Neyman beansprucht in seiner Biometrika-Arbeit von 1941 "Fiducial argument and the theory of confidence interval" ausdrücklich den Begriff "Konfidenzintervall" und den Ursprung der Theorie der Konfidenzintervalle. In gewissem Sinne spielt also alles, was ein Konfidenzintervall ist, nach seinen Regeln, und so kann die Bedeutung eines einzelnen Intervalls nur als langfristige Rate ausgedrückt werden, in der Intervalle, die mit dieser Methode berechnet werden, die relevante Wahrheit enthalten (abdecken) Parameterwert.

Wir müssen jetzt die Diskussion ankurbeln. Ein Strang folgt dem Begriff der 'Abdeckung', und der andere folgt nicht-neymanischen Intervallen, die wie Konfidenzintervalle sind. Ersteres werde ich aufschieben, damit ich diesen Beitrag vervollständigen kann, bevor er zu lang wird.

Es gibt viele verschiedene Ansätze, die Intervalle liefern, die als nicht-neymanische Konfidenzintervalle bezeichnet werden könnten. Das erste davon sind Fischers Bezugsintervalle. (Das Wort 'fiducial' mag viele erschrecken und bei anderen abstoßende Smirks hervorrufen, aber ich werde das beiseite lassen ...) Für einige Arten von Daten (z. B. normal mit unbekannter Populationsvarianz) sind die nach der Fisher-Methode berechneten Intervalle zahlenmäßig identisch mit den Intervalle, die nach Neymans Methode berechnet würden. Sie fordern jedoch zu gegensätzlichen Interpretationen auf. Neymansche Intervalle spiegeln nur die Langzeitbedeckungseigenschaften der Methode wider, wohingegen die Fisher-Intervalle eine induktive Inferenz in Bezug auf die wahren Parameterwerte für das jeweilige durchgeführte Experiment unterstützen sollen.

Die Tatsache, dass ein Satz von Intervallgrenzen von Methoden stammen kann, die auf einem von zwei philosophisch unterschiedlichen Paradigmen basieren, führt zu einer wirklich verwirrenden Situation - die Ergebnisse können auf zwei widersprüchliche Arten interpretiert werden. Ausgehend vom Vergleichsargument besteht eine Wahrscheinlichkeit von 95%, dass ein bestimmtes Vergleichsintervall von 95% den wahren Parameterwert enthält. Aus der Neyman-Methode wissen wir nur, dass 95% der auf diese Weise berechneten Intervalle den wahren Parameterwert enthalten und müssen verwirrende Dinge über die Wahrscheinlichkeit sagen, dass das Intervall, das den wahren Parameterwert enthält, unbekannt, aber entweder 1 oder 0 ist.

Zu einem großen Teil hat Neymans Ansatz über Fisher's geherrscht. Das ist meiner Meinung nach am bedauerlichsten, weil es nicht zu einer natürlichen Interpretation der Intervalle führt. (Lesen Sie das obige Zitat von Neyman und Pearson noch einmal durch und prüfen Sie, ob es mit Ihrer natürlichen Interpretation der experimentellen Ergebnisse übereinstimmt. Dies ist höchstwahrscheinlich nicht der Fall.)

Wenn ein Intervall korrekt in Bezug auf globale Fehlerraten, aber auch in Bezug auf lokale Inferenzraten interpretiert werden kann, sehe ich keinen guten Grund, Intervallbenutzer von der natürlicheren Interpretation abzuhalten, die Letzteres bietet. Mein Vorschlag ist daher, dass die richtige Interpretation eines Konfidenzintervalls BEIDES von Folgendem ist:

  • Neymanian: Dieses 95% -Intervall wurde mit einer Methode konstruiert, die auf lange Sicht zu 95% Intervalle liefert, die den wahren Parameterwert abdecken (... unserer statistischen Erfahrung).

  • Fisherian: Dieses 95% -Intervall deckt mit einer Wahrscheinlichkeit von 95% den wahren Parameterwert ab.

(Bayesianische und Likelihood-Methoden ergeben auch Intervalle mit wünschenswerten frequentistischen Eigenschaften. Solche Intervalle führen zu leicht unterschiedlichen Interpretationen, die sich beide wahrscheinlich natürlicher anfühlen als die Neymanianer.)

Michael Lew
quelle
@Micheal - der Ort, an dem sie sich unterscheiden, ist, dass ein fudizielles Intervall auf einer ausreichenden Statistik und Bedingung für alle Nebenmengen basieren muss. Das Neymans-Konfidenzintervall erfordert diese Eigenschaft nicht und unterliegt daher dem "95% -Konfidenzintervall" mit unterschiedlicher Abdeckung für bestimmte Unterklassen von Proben.
Wahrscheinlichkeitslogik
@ Wahrscheinlichkeit - Können Sie das erweitern? Meinen Sie, dass es Umstände gibt, in denen ein 95% -Neyman-Konfidenzintervall ein Konfidenzintervall ist, aber kein 95% -Intervall? Wie würden diese Umstände sein? Würde das Fischereiintervall unter diesen Umständen die gleichen Grenzen haben?
Michael Lew
Sie können Fälle anzeigen, in denen Sie anhand der Stichprobe feststellen können, dass ein Konfidenzintervall von "95%" nicht den wahren Wert enthält. Beispiel 5 und Beispiel 6 in Jaynes 'Artikel geben zwei Fälle an, in denen die Verwendung nicht ausreichender Statistiken in CIs die langfristige Abdeckung ergibt, die Abdeckung jedoch über bestimmte Klassen von Stichproben variiert. Es ist analog zu zwei Variablen mit dem gleichen Durchschnitt (langfristige Abdeckung), aber unterschiedlicher Varianz (Abdeckung in bestimmten Fällen)
Wahrscheinlichkeitsanalyse
2

Die Bedeutung eines Konfidenzintervalls ist: Wenn Sie Ihr Experiment auf genau dieselbe Weise wiederholen würden (dh die gleiche Anzahl von Beobachtungen, die aus derselben Population stammen usw.) und wenn Ihre Annahmen korrekt sind und Sie rechnen würden dieses Intervall bei jeder Wiederholung erneut, dann würde dieses Konfidenzintervall die wahre Prävalenz in 95% der Wiederholungen enthalten (im Durchschnitt).

Sie können also sagen, dass Sie zu 95% sicher sind (wenn Ihre Annahmen korrekt sind usw.), dass Sie jetzt ein Intervall erstellt haben, das die wahre Prävalenz enthält.

Dies wird in der Regel wie folgt angegeben: Mit 95% igem Vertrauen werden zwischen 4,5 und 8,3% der Kinder von Müttern, die während der Schwangerschaft geraucht haben, fettleibig.

Beachten Sie, dass dies an sich in der Regel nicht interessant ist: Sie möchten dies wahrscheinlich mit der Prävalenz bei Kindern von Müttern vergleichen, die nicht rauchten (Odds Ratio, relatives Risiko usw.).

Nick Sabbe
quelle
(Diese Antwort, die hier nach einem Zusammenschluss von zwei Threads
eingegangen
0

Wenn die wahre mittlere Differenz außerhalb dieses Intervalls liegt, besteht nur eine Wahrscheinlichkeit von 5%, dass die mittlere Differenz aus unserem Experiment so weit von der tatsächlichen mittleren Differenz entfernt ist.

Thomas Levine
quelle
Was meinst du mit "so weit weg"? Ist dies die obere Grenze des weit entfernten CI oder der beobachtete Mittelwert?
Wahrscheinlichkeitslogik
Der Abstand zwischen dem wahren Mittelwert und dem beobachteten Mittelwert ist das, was ich mit "so weit weg" meine. Ich werde es auf "so weit weg" ändern; Ich denke, das ist etwas klarer.
Thomas Levine
-2

Meine Interpretation: Wenn Sie das Experiment N-mal durchführen (wobei N gegen unendlich tendiert), weisen 95% der Experimente bei dieser großen Anzahl von Experimenten Konfidenzintervalle auf, die innerhalb dieser 95% -Grenzen liegen. Nehmen wir klarer an, diese Grenzwerte sind "a" und "b", dann liegt die 95-fache mittlere Probendifferenz zwischen "a" und "b". Ich gehe davon aus, dass Sie verstehen, dass verschiedene Experimente unterschiedliche Proben abdecken können aus der gesamten Bevölkerung.

Ayush Biyani
quelle
@ Ayush. Vielen Dank. Das ist hilfreich Entschuldigung, ich folge deinem letzten Satz nicht ganz.
Anne
@anne - Ok. Ich meine, wenn Sie den Mittelwert zwischen zwei Stichproben testen möchten und sagen wir, dass jede Stichprobe 1000 Personen hat, können Sie unendlich viele Stichproben daraus definieren (von sagen wir, 40 Personen aus jeder). Ich hatte dies geschrieben, um zu erklären, warum Die verschiedenen Experimente unterscheiden sich voneinander. Die Experimente, bei denen wir das Konfidenzintervall beobachten.
Ayush Biyani
2
@ayush - das ist nicht die richtige Interpretation in deinem vorletzten Satz. Oder zumindest sollten Sie "a" und "b" mit Indizes versehen, um zu verdeutlichen, dass diese Größen über die 100-fachen variieren. Ihre aktuelle Notation lässt es scheinen, dass "a" und "b" feste Größen sind.
Wahrscheinlichkeit
@probabilityislogic - stimme zu ... die Indizes sind erforderlich.
Ayush Biyani
1
@Ayush (-1) Die Charakterisierung, die derzeit in Ihrer Antwort angezeigt wird, kann auf verschiedene Arten interpretiert werden, von denen die meisten (daher) falsch sind. Zum Beispiel Konfidenzintervalle[ein,b]werden normalerweise so konstruiert, dass sie die "durchschnittliche Probendifferenz" enthalten, was bedeutet, dass diese Differenz in 100% der Zeit zwischen den Grenzen liegt, egal was passiert.
whuber
-2

"Bei 95 von 100 Fällen liegt Ihr Wert innerhalb einer Standardabweichung vom Mittelwert."

anfängerstat
quelle
4
Willkommen auf der Site @beginnerstat. Ich frage mich, ob Sie sagen wollten, " zwei Standardabweichungen des Mittelwerts"? Außerdem bin ich mir nicht sicher, wie sich dieser Wortlaut gegenüber dem, was das OP an anderer Stelle gelesen hat, verbessert. Möchten Sie etwas näher darauf eingehen?
gung - Wiedereinsetzung von Monica
1
Ja zu @ gungs Kommentar: Ich bin besonders daran interessiert zu verstehen, in welchem ​​Sinne "mean" und "SD" hier verwendet werden. Beziehen sich diese auf zugrunde liegende Parameter oder auf Stichprobenschätzungen ? Beziehen sie sich auf die Verteilung einer zugrunde liegenden Zufallsvariablen oder auf die Stichprobenverteilung des Mittelwerts der iid-Variablen aus einer solchen Verteilung?
Whuber