Warum funktioniert die Methode von Stouffer?

8

Es scheint eine ziemlich einfache Frage zu sein, aber wenn ich wirklich darüber nachdenke, macht Stouffers Methode für mich keinen Sinn. Deshalb:

Nehmen Sie eine zweiseitige Hypothese an. Sie berechnen zuerst aus p- Werten. Nehmen wir also ein ziemlich einfaches Beispiel. Nehmen wir zwei p- Werte von 0,05 . Dies bedeutet, dass z 1 und z 2 beide 1,96 sind . Nach der Methode von Stouffer werden z 1 und z 2 so kombiniert, dass: zipp0.05z1z21.96z1z2

Z=i=1kZik=1.96+1.962=2.77

Dies -score dann wird in einem umgesetztes p erneut -Wertes, in einem erhaltenen p - Wert von 0,005 , wohingegen die p - Werte von jedem Z i einzeln um ist 0,05 .zpp0.005pzi0.05

In diesem Sinne scheint es, als ob Stouffers Test den resultierenden Wert künstlich in einen Wert ändert, der den p- Werten jedes z i unähnlich ist , was für mich keinen Sinn ergibt.ppzi

Verstehe ich diesen Test falsch oder kann mir jemand helfen zu verstehen, wie / warum er funktioniert?

werden
quelle
3
(+1) Bitte beachten Sie jedoch, dass die Methode von Stouffer in dieser Form nicht für zweiseitige Alternativen geeignet ist. Das Problem ist, dass die Möglichkeit übersehen wird, dass eine Studie einen Effekt in die eine und die andere Richtung in die entgegengesetzte Richtung gefunden hat. Man muss überprüfen, ob dies nicht geschehen ist. Um auf Ihre Frage zu kommen: Inwiefern ist das "künstlich"? Denken Sie daran, dass der Zweck darin besteht , Beweise zu kombinieren , um die Entscheidungsfindung zu unterstützen. Ist es nicht sinnvoll, dass zwei signifikante Ergebnisse eine stärkere Unterstützung für eine Entscheidung darstellen sollten als eines allein?
whuber
Als ich schrieb, dass es "künstlich" erscheint, meinte ich, dass im Fall von zwei Stichproben (N = 2) immer eine Inflation im Z-Score auftritt, was zu konstant niedrigeren p-Werten führt, als von beiden erwartet z-Score ( ). Es ist zwar sinnvoll, dass zwei signifikante Ergebnisse zu einer stärkeren Unterstützung für eine Entscheidung führen sollten als eines allein, es ist jedoch nicht sinnvoll, zwei p-Werte in die Stouffer-Methode zu implementieren, und das Ergebnis unterscheidet sich vollständig von beiden p-Werten. Wert. zi
wird
2
@will, ich kann den letzten Satz Ihres ersten (langen) Kommentars hier nicht verstehen. Ja, es ist sinnvoll, dass zwei signifikante Ergebnisse in Kombination eine stärkere Unterstützung ergeben. Dies bedeutet, dass der kombinierte p-Wert durchaus niedriger sein kann als einer der beiden. Also, was ist das Problem?
Amöbe
2
Ich dachte, dass eine Möglichkeit, Ihre Intuition zu entwickeln, darin besteht, dieses Verfahren umzukehren: Nehmen Sie eine einzelne Studie und teilen Sie sie in zwei zufällige Teile auf, und analysieren Sie dann jeden Teil separat. Betrachten Sie als sehr einfaches Beispiel eine Umfrage nach den Wahlen, bei der 1000 Personen befragt wurden und 535 angaben, für den Amtsinhaber und 465 für ihre Gegnerin zu stimmen. Eine zufällige Aufteilung kann in der einen Hälfte zwischen 265 und 235 und in der anderen Hälfte zwischen 270 und 230 liegen. Was sind die p-Werte für den Test der Proportionsgleichheit in den beiden Hälften und wie hoch ist der p-Wert insgesamt? (In R, rechnen mit prop.test(535,1000)usw.)
whuber
2
Sie scheinen die Stichprobenschätzung des Anteils mit dem p-Wert des Tests zu verwechseln !! Der Gesamt-p-Wert beträgt 0,03, während die p-Werte der beiden Hälften 0,08 und 0,19 betragen.
whuber

Antworten:

7

Die höhere Gesamtstichprobengröße führt zu einer höheren Leistung und damit zu einem kleineren p-Wert (zumindest wenn die Arbeitshypothese durch die Daten gestützt wird).

Dies ist normalerweise der Hauptpunkt jeder Metaanalyse: Mehrere schwache Beweise, die eine Hypothese stützen, werden zu starken Beweisen dafür kombiniert.

Michael M.
quelle
Da der statistische Begriff "Potenz" in diesem Zusammenhang eine stark andere Bedeutung als der p-Wert hat, befürchte ich, dass diese Erklärung einige Verwirrung unter ihnen hervorrufen könnte.
whuber
Bedeutet dies also, dass im Fall einer Stichprobengröße von 2 die Leistung der Stouffer-Methode immer verringert wird und der p-Wert immer kleiner ist? Wie kann eine genauere Antwort erhalten werden, wenn die Stichprobengröße zwei beträgt?
wird
p=0.05NN=N1+N2N1+N2
2

Der Einfachheit halber denken Sie an einen Test der Mittel. Angenommen, unter H0 ist der Behandlungseffekt Null, so dass jeder z-Wert eine gewichtete Schätzung des Behandlungseffekts θi ist. Die Stouffer-Methode liefert einen ungewichteten Durchschnitt dieser Behandlungseffekte, sodass eine genauere Schätzung (und damit ein kleinerer p-Wert) als jeder einzelne z-Wert erhalten wird. Diese ungewichtete Schätzung des Behandlungseffekts ist verzerrt, aber eine gewichtete Stouffer-Methode ist möglich, und wenn die Gewichte proportional zu 1 / Standardfehler (θi) sind, ist die Schätzung des Behandlungseffekts unvoreingenommen. Dies ist jedoch nur dann sinnvoll, wenn die einzelnen z-Werte Maße derselben Größe sind. Ein Vorteil der Methoden von Stouffer und Fisher besteht darin, dass sie auch auf Metaanalysen angewendet werden können, bei denen verschiedene Antwortvariablen ausgewählt wurden.

Paul Silcocks
quelle
0

H0pp<0.1H0

p

Quazgar
quelle
-2

Ich denke, es wäre in Ordnung, 2-tailed-Ergebnisse zu kombinieren, da dies bedeutet, dass das Ergebnis Null betragen würde (wenn es Beweise dafür gibt, dass die Behandlung die Krankheit eines Patienten verstärkt, aber auch Beweise dafür, dass sie sich verschlechtert [links] -tail] ist das Nettoergebnis kein Beweis für eine bestimmte Hypothese, da sie sich aufheben und weitere Beobachtungen erforderlich sind.

gah
quelle
1
Ich denke nicht, dass dies die Frage anspricht. Der Kommentar von whuber zeigt auch, dass diese spezielle Methode für 2-tailed-Tests nicht funktioniert.
mkt - Reinstate Monica