Bedeutung von 2.04 Standardfehlern? Signifikant unterschiedliche Mittel, wenn sich Konfidenzintervalle stark überschneiden?

10

Das Bild unten stammt aus diesem Artikel in Psychological Science . Ein Kollege wies auf zwei ungewöhnliche Dinge hin:

  1. Gemäß der Beschriftung zeigen die Fehlerbalken "± 2,04 Standardfehler, das 95% -Konfidenzintervall". Ich habe bisher nur ± 1,96 SE für den 95% CI gesehen, und ich kann nichts über 2,04 SE finden, das für irgendeinen Zweck verwendet wird. Hat 2.04 SE eine akzeptierte Bedeutung ?
  2. Der Text besagt, dass geplante paarweise Vergleiche signifikante Unterschiede für die mittlere Startle-Größe im Fehler gegenüber korrekten vorhersagbaren Versuchen (t (30) = 2,51, p <0,01) und im Fehler gegenüber korrekten unvorhersehbaren Versuchen (t (30) = 2,61, p) ergaben <0,01) (der Omnibus-F-Test war auch bei p <0,05 signifikant). Das Diagramm zeigt jedoch die Fehlerbalken für alle drei Bedingungen, die sich im Wesentlichen überlappen. Wenn sich die ± 2,04 SE-Intervalle überlappen, wie können sich die Werte bei p <0,05 signifikant unterscheiden? Die Überlappung ist groß genug, dass ich davon ausgehe, dass sich auch die Intervalle von ± 1,96 SE überlappen.

Balkendiagramm mit 2,04 SE-Fehlerbalken

Oktern
quelle
1
Tolle Antworten. Ich möchte betonen, dass der Vergleich von 95% -Konfidenzintervallen (wie bereits erwähnt) nicht mit der Durchführung statistischer Tests auf dem Signifikanzniveau 0,05 identisch ist. Es gibt natürlich Papiere, die sich damit befassen. Wenn nur Konfidenzintervalle verfügbar sind, schlagen Payton et al. Vor, 85% -Intervalle für das Signifikanzniveau 0,05 für Gaußsche Daten zu verwenden. Sie verfolgen hier ihre Arbeit .
Martin Berglund
1
Danke, @Martin. Um die Schleife zu schließen: Obwohl ich mir das Papier von Payton et al. Nicht angesehen habe , ist die Basis für 85% klar: Der Z-Wert, der 84% entspricht, entspricht im Quadrat ; Addieren von zwei davon ergibt ; Die Quadratwurzel ist , was so ziemlich dem Z-Wert entspricht, der einem 95% -Intervall entspricht. Ich nehme an, Payton hat 84% auf 85% gerundet. Mit anderen Worten, ihre Empfehlung (wie auch immer sie abgeleitet wurde) kann durch dieselbe Analyse erklärt werden, die ich bereitgestellt habe. 4 2242
whuber
@MartinBerglund und whuber Sind auf Ihre Antworten gestoßen, als Sie sich gefragt haben, ob meine unabhängige Berechnung von 83,4% -Konfidenzintervallen für die Durchführung statistischer Tests auf 0,05-Niveau ursprünglich war - offensichtlich nicht! Vielen Dank für die Papierreferenz, sehr hilfreich.
Tristan

Antworten:

11
  1. 30 2,042272 2.042.04 ist der Multiplikator für eine Student t-Verteilung mit 31 Freiheitsgraden. Die Zitate legen nahe, dass Freiheitsgrade angemessen sind. In diesem Fall beträgt der korrekte Multiplikator .302.0422722.04

  2. Die Mittelwerte werden hinsichtlich Standardfehlern verglichen . Der Standardfehler ist typischerweise das -fache der Standardabweichung, wobei (hier vermutlich um ) die Stichprobengröße ist. Wenn die Beschriftung beim Aufrufen dieser Balken als "Standardfehler" korrekt ist, müssen die Standardabweichungen mindestens mal größer sein als die Werte von ungefähr wie gezeigt. Ein Datensatz mit positiven Werten mit einer Standardabweichung von und einem Mittelwert zwischen und müsste die meisten Werte nahe n30+1=311/nn30+1=316316×5,5=3314180315.56316×5.5=3314180und eine kleine Anzahl von satten großen Werten, was ziemlich unwahrscheinlich erscheint. (Wenn dies so wäre, wäre die gesamte auf der Student t-Statistik basierende Analyse ohnehin ungültig.) Wir sollten daraus schließen, dass die Abbildung wahrscheinlich Standardabweichungen und keine Standardfehler zeigt .

  3. Mittelwertvergleiche basieren nicht auf Überlappungen (oder deren Fehlen) von Konfidenzintervallen. Zwei 95% CIs können sich überlappen, können jedoch hoch signifikante Unterschiede anzeigen. Der Grund ist, dass der Standardfehler der Differenz in ( unabhängigen ) Mitteln zumindest ungefähr die Quadratwurzel der Summe der Quadrate der Standardfehler der Mittel ist. Wenn beispielsweise der Standardfehler eines Mittelwerts von gleich und der Standardfehler eines Mittelwerts von gleich , erstreckt sich der CI des ersten Mittelwerts (unter Verwendung eines Vielfachen von ) von auf und der CI von Die zweite erstreckt sich von1 17 1 2,04 11,92 16,08 14,92 19,03 1411712.0411.9216.0814.92bis mit erheblicher Überlappung. Trotzdem ist die SE der Differenz gleich . Die Mittelwertdifferenz ist größer als das fache dieses Wertes: Sie ist signifikant.19.0317-14=32,0412+121.411714=32.04

  4. Dies sind paarweise Vergleiche. Die einzelnen Werte können sehr unterschiedlich sein, während ihre Unterschiede sehr konsistent sein können. Zum Beispiel zeigt eine Reihe von Paaren wie , , , usw. Variationen in jeder Komponente, aber die Unterschiede sind konsistent . Obwohl dieser Unterschied im Vergleich zu beiden Komponenten gering ist, zeigt seine Konsistenz , dass er statistisch signifikant ist.( 15 , 15.01 ) ( 16 , 16.01 ) ( 17 , 17.01 ) 0.01(14,14.01)(15,15.01)(16,16.01)(17,17.01) 0.01

whuber
quelle
Danke vielmals. In dem Artikel wird nirgends angegeben, dass die Post-hoc-Tests gepaarte Vergleiche zwischen den Antworten der einzelnen Teilnehmer auf die beiden Arten von Studien waren, und so kam ich zu dem Schluss, dass sie es als Vergleich zwischen Probanden behandelten (obwohl dies der Fall wäre) weniger angemessen und weniger mächtig). Ich denke, Sie müssen Recht haben, und sie haben den empfindlicheren (und schwieriger zu grafischen) Test durchgeführt. Was Punkt 3 betrifft, ist meine einzige Antwort, dass ich eindeutig einige Statistiken neu
lernen muss
Ich habe in Ihrer Frage einen Satz aufgegriffen: "Geplante paarweise Vergleiche". Der Rest der von Ihnen zitierten Ergebnisse deutet jedoch darauf hin, dass es sich nicht um paarweise Vergleiche handelt, sondern eher um eine Berechnung, die der in Punkt 3 meiner Antwort ähnelt.
whuber
Damit meinte ich, dass sie Post-hoc-Tests durchführten, bei denen zwei der drei Bedingungen direkt miteinander verglichen wurden, anstatt einen Omnibus-Test durchzuführen, bei dem alle drei Bedingungen verglichen wurden. Entschuldigung für die Verwirrung. Aber jetzt, wo ich es mir anschaue, denke ich, dass Sie trotzdem Recht hatten. Die Art und Weise, wie sie die Omnibus-Teststatistik ( F(2,60)=5.64, p<.05) melden, impliziert, dass es sich um einen Test mit wiederholten Messungen handelte, und daher waren es wahrscheinlich auch die Post-hoc-Tests.
5.
Vielen Dank für Ihre gute Antwort. "Der Grund ist, dass der Standardfehler der Differenz in (unabhängigen) Mitteln zumindest ungefähr die Quadratwurzel der Summe der Quadrate der Standardfehler der Mittel ist." Ich suche Referenzen, die dies diskutieren, aber keine finden konnten. Ich würde mich über eine Anleitung in dieser Hinsicht freuen. Vielleicht könnte mir jemand helfen?
Johannes
@Johannes Das Quadrat der SE ist proportional zur Varianz des Stichprobenmittelwerts. (Die Proportionalitätskonstante hängt von der Definition ab und kann geringfügig mit der Stichprobengröße variieren.) Die Unabhängigkeit impliziert, dass die Varianz der Stichprobenverteilung der Mittelwertdifferenz die Summe der Quadrate der SE ist.
whuber
3

Ein Teil der Verwirrung hier ist die verwirrende Darstellung der Daten. Es scheint sich um ein Design mit wiederholten Messungen zu handeln, doch die Fehlerbalken sind Konfidenzintervalle dafür, wie gut der wahre Mittelwert geschätzt wurde. Ein Hauptzweck wiederholter Maßnahmen besteht darin, zu vermeiden, dass genügend Daten gesammelt werden, um eine Qualitätsschätzung des Rohmittelwerts zu erhalten. Daher haben Fehlerbalken wie die vorgestellten fast keinen Bezug zur erzählten Geschichte. Der Wert von kritischem Interesse ist der Effekt. Mit dem Ziel von Grafiken, den Hauptpunkt der Geschichte hervorzuheben, wäre es grafischer gewesen, die Effekte und ihre Konfidenzintervalle grafisch darzustellen.

John
quelle
Vielen Dank! Ich hatte ein wenig Mühe auszudrücken, warum das Diagramm nicht die Analyse darstellte.
Oktober