Wie kann ein t-Test statistisch signifikant sein, wenn die mittlere Differenz fast 0 beträgt?

10

Ich versuche, Daten aus 2 Populationen zu vergleichen, um festzustellen, ob der Unterschied zwischen den Behandlungen statistisch signifikant ist. Die Datensätze scheinen normal verteilt zu sein, mit sehr geringem Unterschied zwischen den beiden Datensätzen. Die durchschnittliche Differenz beträgt 0,00017. Ich führte einen gepaarten t-Test durch und erwartete, dass ich die Nullhypothese ohne Unterschied zwischen den Mittelwerten nicht ablehnen würde. Mein berechneter t-Wert ist jedoch viel höher als mein kritischer t-Wert.

Kscicc26
quelle
Was möchten Sie Vorschläge? Was sind deine Ns?
Gung - Reinstate Monica
Hallo, ich bin mir einfach nicht sicher, wie ich vorgehen soll, wenn ich etwas falsch gemacht habe, da die Daten überhaupt nicht anders zu sein scheinen. Beide Gruppen haben 335 Beobachtungen
Kscicc26
5
Der Standardfehler der Mittelwertdifferenz ist auch eine Funktion der Standardabweichungen und der Stichprobengrößen. Alle diese Stücke müssten in Ihrer Frage sein, bevor eine Überraschung registriert werden könnte.
Glen_b -State Monica
7
Jeder Unterschied ist "fast 0"! Wenn die Ergebnisvariable das von Menschen zugenommene Gewicht ist und in Pfund gemessen wird, ist 0,00017 zwar klein, aber wenn es in Millionen Pfund gemessen wird, ist 0,00017 enorm. Diese Frage hat daher keine Bedeutung, bis ein Kontext - was in der Antwort gemessen wird - und eine Maßeinheit bereitgestellt werden.
whuber
1
Statistische Signifikanz bedeutet nicht "Signifikanz" im weiteren englischen Bedeutungssinn.
David25272

Antworten:

9

Ich sehe keinen Grund zu der Annahme, dass Sie etwas falsch gemacht haben, nur weil der Test signifikant war, auch wenn der mittlere Unterschied sehr gering ist. In einem gepaarten T-Test wird die Signifikanz von drei Dingen bestimmt:

  1. die Größe der mittleren Differenz
  2. die Datenmenge, die Sie haben
  3. die Standardabweichung der Differenzen

Zugegeben, Ihr mittlerer Unterschied ist sehr, sehr gering. Auf der anderen Seite haben Sie eine ganze Menge Daten (N = 335). Der letzte Faktor ist die Standardabweichung der Differenzen. Ich weiß nicht, was das ist, aber da Sie ein signifikantes Ergebnis erzielt haben, können Sie davon ausgehen, dass es klein genug ist, um den kleinen mittleren Unterschied zu Ihrer Datenmenge zu überwinden. Stellen Sie sich zum Aufbau einer Intuition vor, dass der gepaarte Unterschied für jede Beobachtung in Ihrer Studie 0,00017 betrug, dann wäre die Standardabweichung der Unterschiede 0. Sicherlich wäre es vernünftig zu schließen, dass die Behandlung zu einer Verringerung führte (wenn auch) ein winziger).

Wie @whuber in den Kommentaren unten bemerkt, ist es erwähnenswert, dass 0,00017 zwar wie eine sehr kleine Zahl als Zahl erscheint, aber nicht unbedingt in bedeutungsvollen Begriffen klein ist. Um das zu wissen, müssten wir einige Dinge wissen, erstens, was die Einheiten sind. Wenn die Einheiten sehr groß sind (z. B. Jahre, Kilometer usw.), kann das, was klein erscheint, sinnvoll groß sein, während bei kleinen Einheiten (z. B. Sekunden, Zentimeter usw.) dieser Unterschied noch geringer erscheint. Zweitens kann sogar eine kleine Änderung wichtig sein: Stellen Sie sich eine Behandlung vor (z. B. einen Impfstoff), die sehr billig war, der gesamten Bevölkerung leicht zu verabreichen war und keine Nebenwirkungen hatte. Es kann sich durchaus lohnen, auch wenn es nur sehr wenige Leben gerettet hat.

gung - Monica wieder einsetzen
quelle
Danke für die Antwort! Ich bin nicht sehr versiert in Statistiken, also war ich nur überrascht, als ich nicht die Antwort bekam, die ich erwartet hatte. Der Standardfehler der Unterschiede zwischen den Mitteln ist: 7.36764E-05. Ich bin mir nicht sicher, welche Relevanz das hat, aber ich bin mir sicher, dass Sie es tun, haha.
Nochmals vielen
Gern geschehen, @ Kscicc26. Der Standardfehler der Differenzen & die Standardabweichung der Differenzen ist nicht das Gleiche. (Tragischerweise klingen sie so, wie sie sein sollten.) Der SD gibt an, wie stark Ihre Unterschiede variieren, während der SE Ihnen sagt, wie stark sich die Schätzungen des mittleren Unterschieds ändern würden, wenn Sie Ihre Studie immer und immer wieder durchführen würden. Es kann Ihnen helfen, meine Beschreibung der SEs hier zu lesen .
Gung - Reinstate Monica
Ich werde das überprüfen und morgen früh wieder auf diesen Thread zurückkommen!
Kscicc26
2
Dieser mittlere Unterschied ist weder klein noch groß: Sie haben einfach keine Grundlage für die Beurteilung seiner Größe.
whuber
@whuber, das ist ein guter Punkt - ich weiß nicht, worauf sich diese Zahlen beziehen. Aber das OP tut es vermutlich und hält es für sehr klein. Ich gehe mit diesen Informationen.
Gung - Reinstate Monica
9

Um zu wissen, ob ein Unterschied wirklich groß oder klein ist, ist ein Maß für den Maßstab erforderlich. Die Standardabweichung ist ein Maß für den Maßstab und Teil der t-Test-Formel, um diese Skala teilweise zu berücksichtigen.

Überlegen Sie, ob Sie die Körpergröße von 5-Jährigen mit der Körpergröße von 20-Jährigen (Menschen, gleiches geografisches Gebiet usw.) vergleichen. Die Intuition sagt uns, dass es dort einen praktischen Unterschied gibt, und wenn die Höhen in Zoll oder Zentimetern gemessen werden, wird der Unterschied bedeutungsvoll aussehen. Aber was ist, wenn Sie die Höhen in Kilometer umrechnen? oder Lichtjahre? dann ist der Unterschied eine sehr kleine Zahl (aber immer noch unterschiedlich), aber (abgesehen von Rundungsfehlern) der T-Test liefert die gleichen Ergebnisse, unabhängig davon, ob die Höhe in Zoll, Zentimetern oder Kilometern gemessen wird.

Ein Unterschied von 0,00017 kann also je nach Maßstab der Messungen sehr groß sein.

Greg Snow
quelle
4

Wenn Ihr kritisches kleiner ist als das, was Sie berechnet haben, und angenommen wird, dass der Test für Ihre bestimmte Art von Daten geeignet ist (ein wichtiges "Wenn"), scheint Ihr Unterschied im Sinne von statistisch signifikant zu sein . Ein signifikantes im entsprechenden Kontext bedeutet im Allgemeinen, dass Ihr beobachteter Unterschied zu zuverlässig ungleich Null ist, um die Nullhypothese zu stützen, dass die Daten "überhaupt nicht unterschiedlich" sind. Selbst ein Unterschied von kann von Null an statistisch signifikant sein, wenn jeder beobachtete Unterschied zwischen .00015 und .00020 liegt. Beobachten!t 17tunlikely to emerge at least as large in another, similar pair of samples selected randomly from the same populations if the null hypothesis of no difference is literally true of those populationst17100,000

pop1=rep(15:20* .00001, 56);pop2=rep(0,336) #Some fake samples of sample size = 336
t.test(pop1,pop2,paired=T)                #Paired t-test with the following output...

t(335)=187.55,p<2.2×1016

Da diese Stichproben sehr konsistent unterschiedlich sind, erreicht der Unterschied statistische Signifikanz, obwohl sie kleiner sind, als viele von uns es gewohnt sind, in alltäglichen Zahlen zu sehen. Tatsächlich können Sie die Daten beliebig verkleinern, indem Sie so viele Nullen anheften, wie Ihre Berechnungen .00001in meiner ersten Zeile des R- Codes an der Vorderseite verarbeiten können . Dadurch wird auch die Standardabweichung der Differenzen verkleinert. Das heißt, Ihre Unterschiede bleiben genauso konsistent, Ihr bleibt genau gleich, ebenso wie seine Bedeutung.t

Vielleicht interessieren Sie sich mehr für die praktische Bedeutung als für diesen wörtlichen Sinn der Nullhypothesen-Signifikanzprüfung. Die praktische Bedeutung hängt viel mehr von der Bedeutung Ihrer Daten im Kontext als von der statistischen Bedeutung ab. es ist keine rein statistische Angelegenheit. Ich habe ein nützliches Beispiel für dieses Prinzip in einer Antwort auf eine beliebte Frage zitiert , die fest verwurzelte Ansichten von p-Werten berücksichtigt :

Man kann nicht allein anhand der Größe schließen, dass ein notwendigerweise unwichtig ist, wenn es sich um eine Frage von Leben und Tod handelt [(Rosenthal, Rubin & Rosnow, 2000)] .r=.03

Diese "Frage von Leben und Tod" war im Grunde genommen die Auswirkung von Aspirin auf Herzinfarkte - ein starkes Beispiel für numerisch kleine, viel weniger konsistente Unterschiede mit praktisch wichtiger Bedeutung. Viele andere Fragen mit soliden Antworten, von denen Sie profitieren könnten, verdienen hier Links, darunter:

Referenz

Rosenthal, R., Rosnow, RL & Rubin, DB (2000). Kontraste und Effektgrößen in der Verhaltensforschung: Ein Korrelationsansatz . Cambridge University Press.

Nick Stauner
quelle
0

Hier ist ein Beispiel in R, das die theoretischen Konzepte in Aktion zeigt. 10.000 Versuche, eine Münze 10.000 Mal mit einer Wahrscheinlichkeit von .0001 zu werfen, verglichen mit 10.000 Versuchen, eine Münze 10.000 Mal mit einer Wahrscheinlichkeit von .00011 zu werfen

t.test (rbinom (10000, 10000, .0001), rbinom (10000, 10000, .00011))

t = -8,0299, df = 19886,35, p-Wert = 1,03e-15 alternative Hypothese: Der wahre Mittelwertunterschied entspricht nicht 0 95 Prozent Konfidenzintervall: -0,14493747 -0,08806253 Stichprobenschätzungen: Mittelwert des x-Mittelwerts von y 0,9898 1,1063

Der Unterschied im Mittelwert ist in Bezug auf die menschliche Wahrnehmung relativ nahe bei 0, unterscheidet sich jedoch statistisch sehr von 0.

Andrew Cassidy
quelle