SPSS liefert die Ausgabe "Konfidenzintervall der Differenzmittel". Ich habe an einigen Stellen gelesen, dass es bedeutet, dass "95 mal von 100, unsere mittlere Stichprobendifferenz wird zwischen diesen Grenzen liegen". Ich finde dies unklar. Kann jemand eine klarere Formulierung vorschlagen, um das "Konfidenzintervall der Mittelwertdifferenz" zu erklären? Diese Ausgabe erscheint im Kontext eines T-Tests mit einer Stichprobe.
21
Antworten:
Dies ist selbst für angesehene Statistiker keine leichte Aufgabe. Schauen Sie sich einen kürzlich von Nate Silver unternommenen Versuch an :
(aus der Fünfunddreißig Blog in der New York Times vom 29.9.10.) Dies ist kein Konfidenzintervall. Je nachdem, wie Sie es interpretieren, handelt es sich entweder um ein Toleranzintervall oder ein Vorhersageintervall. (Ansonsten hat Mr. Silver nichts damit zu tun, wie Wahrscheinlichkeiten geschätzt werden. Es ist eine gute Lektüre.) Viele andere Websites (insbesondere Websites mit Investitionsschwerpunkt) verwechseln Konfidenzintervalle mit anderen Intervallarten.
Die New York Times hat Anstrengungen unternommen, um die Bedeutung der von ihr erstellten statistischen Ergebnisse zu klären und darüber zu berichten. Das Kleingedruckte unter vielen Umfragen enthält etwa Folgendes:
( ZB , wie die Umfrage wurde durchgeführt , , 2011.05.02.)
Vielleicht ein bisschen wortreich, aber klar und genau: Diese Aussage charakterisiert die Variabilität der Stichprobenverteilung der Umfrageergebnisse. Das nähert sich der Idee des Konfidenzintervalls, ist aber noch nicht ganz da. Man könnte jedoch in vielen Fällen in Betracht ziehen, eine solche Formulierung anstelle von Konfidenzintervallen zu verwenden.
Wenn im Internet so viel Verwirrung herrscht, ist es nützlich, sich an maßgebliche Quellen zu wenden. Einer meiner Favoriten ist Freedman, Pisani & Purves 'bewährter Text Statistics. In seiner vierten Ausgabe wird es seit über 30 Jahren an Universitäten eingesetzt und zeichnet sich durch klare, klare Erklärungen und die Konzentration auf klassische "frequentistische" Methoden aus. Mal sehen, was es über die Interpretation von Konfidenzintervallen aussagt:
[auf S. 384; Alle Zitate stammen aus der dritten Auflage (1998)]. Es geht weiter,
[p. 384]. Der Text sagt viel mehr über Konfidenzintervalle aus, aber dies ist ausreichend, um zu helfen: Sein Ansatz besteht darin, den Diskussionsfokus auf die Stichprobe zu verlagern und die Aussagen gleichzeitig strenger und klarer zu gestalten. Wir könnten daher dasselbe in unserer eigenen Berichterstattung versuchen. Wenden wir diesen Ansatz beispielsweise auf die Beschreibung eines Konfidenzintervalls von [34%, 40%] um einen angegebenen prozentualen Unterschied in einem hypothetischen Experiment an:
(Dies ist mein Text, der sicherlich verbessert werden kann: Ich lade Redakteure ein, daran zu arbeiten.)
Eine lange Aussage wie diese ist etwas unhandlich. In tatsächlichen Berichten wurde der größte Teil des Kontexts - Stichproben, Probanden und Kontrollen, Möglichkeit der Variabilität - bereits festgelegt, sodass die Hälfte der vorhergehenden Aussage nicht mehr erforderlich ist. Wenn der Bericht feststellt, dass es Stichprobenvariabilität gibt und ein Wahrscheinlichkeitsmodell für die Stichprobenergebnisse zeigt, ist es normalerweise nicht schwierig, ein Konfidenzintervall (oder ein anderes zufälliges Intervall) so klar und genau zu erklären, wie es das Publikum benötigt.
quelle
Aus pedantischer technischer Sicht glaube ich nicht, dass es einen "klaren Wortlaut" für die Interpretation von Konfidenzintervallen gibt.
Ich würde ein Konfidenzintervall folgendermaßen interpretieren: Es besteht eine 95% ige Wahrscheinlichkeit, dass das 95% ige Konfidenzintervall die wahre mittlere Differenz abdeckt
Meine persönliche Auseinandersetzung mit der Logik solcher Überlegungen ist, dass diese Erklärung der Konfidenzintervalle erfordert, dass wir die anderen ignorierenN- 1 Stichproben bei der Berechnung unseres Konfidenzintervalls . Wenn Sie beispielsweise eine Stichprobengröße von 100 hätten, würden Sie dann 100 95% -Konfidenzintervalle mit einer Stichprobe berechnen?
Beachten Sie jedoch, dass dies alles in der Philosophie liegt. Konfidenzintervalle lassen sich meiner Meinung nach nur vage erklären. Bei sachgemäßer Anwendung erzielen sie gute Ergebnisse.
quelle
Die grobe Antwort auf die Frage lautet, dass Sie mit einem 95% -Konfidenzintervall zu 95% sicher sein können, dass der wahre Parameterwert innerhalb des Intervalls liegt. Diese grobe Antwort ist jedoch sowohl unvollständig als auch ungenau.
Die Unvollständigkeit liegt in der Tatsache, dass nicht klar ist, dass "95% zuversichtlich" irgendetwas Konkretes bedeutet, oder wenn dies der Fall ist, würde diese konkrete Bedeutung auch von einer kleinen Stichprobe von Statistikern nicht allgemein anerkannt. Die Bedeutung von Vertrauen hängt davon ab, mit welcher Methode das Intervall ermittelt wurde und welches Inferenzmodell verwendet wird (was hoffentlich weiter unten klarer wird).
Die Ungenauigkeit liegt in der Tatsache, dass viele Konfidenzintervalle nichts über die Position des wahren Parameterwerts für den bestimmten experimentellen Fall aussagen, der das Konfidenzintervall ergab! Das wird für viele überraschend sein, aber es folgt direkt aus der Neyman-Pearson-Philosophie, die in diesem Zitat aus ihrer Arbeit von 1933 "Über das Problem der effizientesten Tests statistischer Hypothesen" klar zum Ausdruck kommt:
Intervalle, die auf der "Inversion" von NP-Hypothesentests basieren, erben daher von diesem Test die Natur, Langzeitfehlereigenschaften zu kennen, ohne Rückschlüsse auf die Eigenschaften des Experiments zuzulassen, das sie ergab! Ich verstehe, dass dies vor induktiven Schlüssen schützt, die Neyman anscheinend für einen Gräuel hielt.
Neyman beansprucht in seiner Biometrika-Arbeit von 1941 "Fiducial argument and the theory of confidence interval" ausdrücklich den Begriff "Konfidenzintervall" und den Ursprung der Theorie der Konfidenzintervalle. In gewissem Sinne spielt also alles, was ein Konfidenzintervall ist, nach seinen Regeln, und so kann die Bedeutung eines einzelnen Intervalls nur als langfristige Rate ausgedrückt werden, in der Intervalle, die mit dieser Methode berechnet werden, die relevante Wahrheit enthalten (abdecken) Parameterwert.
Wir müssen jetzt die Diskussion ankurbeln. Ein Strang folgt dem Begriff der 'Abdeckung', und der andere folgt nicht-neymanischen Intervallen, die wie Konfidenzintervalle sind. Ersteres werde ich aufschieben, damit ich diesen Beitrag vervollständigen kann, bevor er zu lang wird.
Es gibt viele verschiedene Ansätze, die Intervalle liefern, die als nicht-neymanische Konfidenzintervalle bezeichnet werden könnten. Das erste davon sind Fischers Bezugsintervalle. (Das Wort 'fiducial' mag viele erschrecken und bei anderen abstoßende Smirks hervorrufen, aber ich werde das beiseite lassen ...) Für einige Arten von Daten (z. B. normal mit unbekannter Populationsvarianz) sind die nach der Fisher-Methode berechneten Intervalle zahlenmäßig identisch mit den Intervalle, die nach Neymans Methode berechnet würden. Sie fordern jedoch zu gegensätzlichen Interpretationen auf. Neymansche Intervalle spiegeln nur die Langzeitbedeckungseigenschaften der Methode wider, wohingegen die Fisher-Intervalle eine induktive Inferenz in Bezug auf die wahren Parameterwerte für das jeweilige durchgeführte Experiment unterstützen sollen.
Die Tatsache, dass ein Satz von Intervallgrenzen von Methoden stammen kann, die auf einem von zwei philosophisch unterschiedlichen Paradigmen basieren, führt zu einer wirklich verwirrenden Situation - die Ergebnisse können auf zwei widersprüchliche Arten interpretiert werden. Ausgehend vom Vergleichsargument besteht eine Wahrscheinlichkeit von 95%, dass ein bestimmtes Vergleichsintervall von 95% den wahren Parameterwert enthält. Aus der Neyman-Methode wissen wir nur, dass 95% der auf diese Weise berechneten Intervalle den wahren Parameterwert enthalten und müssen verwirrende Dinge über die Wahrscheinlichkeit sagen, dass das Intervall, das den wahren Parameterwert enthält, unbekannt, aber entweder 1 oder 0 ist.
Zu einem großen Teil hat Neymans Ansatz über Fisher's geherrscht. Das ist meiner Meinung nach am bedauerlichsten, weil es nicht zu einer natürlichen Interpretation der Intervalle führt. (Lesen Sie das obige Zitat von Neyman und Pearson noch einmal durch und prüfen Sie, ob es mit Ihrer natürlichen Interpretation der experimentellen Ergebnisse übereinstimmt. Dies ist höchstwahrscheinlich nicht der Fall.)
Wenn ein Intervall korrekt in Bezug auf globale Fehlerraten, aber auch in Bezug auf lokale Inferenzraten interpretiert werden kann, sehe ich keinen guten Grund, Intervallbenutzer von der natürlicheren Interpretation abzuhalten, die Letzteres bietet. Mein Vorschlag ist daher, dass die richtige Interpretation eines Konfidenzintervalls BEIDES von Folgendem ist:
Neymanian: Dieses 95% -Intervall wurde mit einer Methode konstruiert, die auf lange Sicht zu 95% Intervalle liefert, die den wahren Parameterwert abdecken (... unserer statistischen Erfahrung).
Fisherian: Dieses 95% -Intervall deckt mit einer Wahrscheinlichkeit von 95% den wahren Parameterwert ab.
(Bayesianische und Likelihood-Methoden ergeben auch Intervalle mit wünschenswerten frequentistischen Eigenschaften. Solche Intervalle führen zu leicht unterschiedlichen Interpretationen, die sich beide wahrscheinlich natürlicher anfühlen als die Neymanianer.)
quelle
Die Bedeutung eines Konfidenzintervalls ist: Wenn Sie Ihr Experiment auf genau dieselbe Weise wiederholen würden (dh die gleiche Anzahl von Beobachtungen, die aus derselben Population stammen usw.) und wenn Ihre Annahmen korrekt sind und Sie rechnen würden dieses Intervall bei jeder Wiederholung erneut, dann würde dieses Konfidenzintervall die wahre Prävalenz in 95% der Wiederholungen enthalten (im Durchschnitt).
Sie können also sagen, dass Sie zu 95% sicher sind (wenn Ihre Annahmen korrekt sind usw.), dass Sie jetzt ein Intervall erstellt haben, das die wahre Prävalenz enthält.
Dies wird in der Regel wie folgt angegeben: Mit 95% igem Vertrauen werden zwischen 4,5 und 8,3% der Kinder von Müttern, die während der Schwangerschaft geraucht haben, fettleibig.
Beachten Sie, dass dies an sich in der Regel nicht interessant ist: Sie möchten dies wahrscheinlich mit der Prävalenz bei Kindern von Müttern vergleichen, die nicht rauchten (Odds Ratio, relatives Risiko usw.).
quelle
Wenn die wahre mittlere Differenz außerhalb dieses Intervalls liegt, besteht nur eine Wahrscheinlichkeit von 5%, dass die mittlere Differenz aus unserem Experiment so weit von der tatsächlichen mittleren Differenz entfernt ist.
quelle
Meine Interpretation: Wenn Sie das Experiment N-mal durchführen (wobei N gegen unendlich tendiert), weisen 95% der Experimente bei dieser großen Anzahl von Experimenten Konfidenzintervalle auf, die innerhalb dieser 95% -Grenzen liegen. Nehmen wir klarer an, diese Grenzwerte sind "a" und "b", dann liegt die 95-fache mittlere Probendifferenz zwischen "a" und "b". Ich gehe davon aus, dass Sie verstehen, dass verschiedene Experimente unterschiedliche Proben abdecken können aus der gesamten Bevölkerung.
quelle
"Bei 95 von 100 Fällen liegt Ihr Wert innerhalb einer Standardabweichung vom Mittelwert."
quelle