Beispiele für Studien mit p <0,001, p <0,0001 oder noch niedrigeren p-Werten?

11

Ich komme aus den Sozialwissenschaften, wo p <0,05 so ziemlich die Norm ist, wobei auch p <0,1 und p <0,01 auftauchen, aber ich habe mich gefragt: In welchen Studienbereichen werden, wenn überhaupt, niedrigere p-Werte als häufig verwendet Standard?

Fr.
quelle

Antworten:

9

Meiner Meinung nach hängt (und sollte) dies nicht vom Studienfach ab. Zum Beispiel können Sie mit einem niedrigeren Signifikanzniveau als wenn Sie beispielsweise versuchen, eine Studie mit historischen oder gut etablierten Ergebnissen zu replizieren (ich kann mir mehrere Studien zum Stroop-Effekt vorstellen , die dazu geführt haben zu einigen Kontroversen in den letzten Jahren). Dies bedeutet eine niedrigere "Schwelle" innerhalb des klassischen Neyman-Pearson-Rahmens zum Testen der Hypothese. Die statistische und praktische (oder inhaltliche) Bedeutung ist jedoch eine andere Sache.p<0.001

Nebenbemerkung . Das "Sternensystem" scheint bereits in den 70er Jahren die wissenschaftlichen Untersuchungen dominiert zu haben, siehe jedoch The Earth Is Round (p <0,05) von J. Cohen ( American Psychologist , 1994, 49 (12), 997-1003). Wie hoch ist die Wahrscheinlichkeit, dass wahr ist, obwohl das, was wir oft wissen wollen, die von mir beobachteten Daten enthält ? Wie auch immer, es gibt auch eine nette Diskussion über " Warum P = 0,05? " Von Jerry Dallal.H0

chl
quelle
Bitte korrigieren Sie meinen Gedankengang: Einige Bereiche konzentrieren sich möglicherweise beispielsweise auf die biochemische Exposition und möchten daher p <0,001 verwenden, um Fehler vom Typ I zu vermeiden, die zu Gesundheitsrisiken führen können. Neben diesem Artikel von Am Psych erinnere ich mich auch an eine großartige Studie im Am J of Sociol oder in einer der Soc Sci-Zeitschriften, denen ich folge. Mein Favorit ist natürlich Ziliak und McCloskey .
Fr.
1
Was Sie hier beschreiben, klingt rückwärts. Ich würde mir Sorgen über Typ-II-Fehler machen und sagen, dass etwas nicht da ist, wenn es vorhanden ist, mit biochemischer Exposition. In diesem Fall könnte ich Alpha höher und nicht niedriger einstellen.
John
Ich habe unter der Annahme gearbeitet, dass der Test die Form haben würde: "Lassen Sie uns beurteilen, ob eine Schwangerschaft mit einer HRT zusammenhängt" (in diesem Fall ist ein Fehler vom Typ I schwerwiegender als ein Fehler vom Typ II, aber möglicherweise ist dieses Design nicht standardisiert).
Fr.
7

Es mag selten vorkommen, dass jemand einen vorgegebenen Alpha-Wert unter beispielsweise 0,01 verwendet, aber es ist bei weitem nicht so selten, dass Menschen ein implizites Alpha von weniger als 0,01 behaupten, wenn sie fälschlicherweise glauben, dass ein beobachteter P-Wert kleiner als 0,01 ist 0,01 entspricht einem Neyman-Pearson-Alpha von weniger als 0,01.

P=0.0023α=0.00230.0023P=0.05P=0.00230.05

Schauen Sie sich Hubbard et al. Verwirrung über Evidenzmaße (ps) gegenüber Fehlern (αs) bei klassischen statistischen Tests. The American Statistician (2003) vol. 57 (3)

Michael Lew
quelle
Ich verstehe den Unterschied, obwohl ich den Fehler wahrscheinlich routinemäßig mache. Aber meine Frage ist, gibt es irgendwo da draußen eine konventionelle Verwendung von beispielsweise p <0,0001? Oder, um es provokativ auszudrücken, ist der Kult p <0,05 universell?
Fr.
Der "Kult" von P <0,05 mag nahezu universell sein, aber es ist nicht möglich, sich auf Aussagen in diesem Punkt zu verlassen, da offensichtliche Ausnahmen höchstwahrscheinlich das Ergebnis einer unwissentlichen Hybridisierung der Fisher- und Neyman-Pearson-Methoden sind. In pharmakologischen Grundlagenforschungsarbeiten gibt es fast nie eine explizite Aussage zur Verwendung von Neyman-Pearson-Fehlerraten.
Michael Lew
Danke für das Beispiel. Die pharmakologische Forschung beeindruckt mich aus vielen (nicht allen wissenschaftlichen) Gründen immer weniger…
Fr.
1
Sie sollten meinen Kommentar zur pharmakologischen Grundlagenforschung nicht als spezifische Kritik auf diesem Gebiet betrachten, es ist nur meine eigene Disziplin und damit die, mit der ich am meisten Erfahrung habe. Ich bin zuversichtlich, dass Sie in der Grundlagenforschung viele Bereiche mit genau den gleichen Mängeln in Bezug auf hybridisierte P-Werte und Fehlerraten finden werden.
Michael Lew
Keine Sorge, ich kann mir leicht vorstellen, dass sich dieses Manko gut über verschiedene Untersuchungsbereiche erstreckt.
Fr.
3

Ich bin mit dieser Literatur nicht sehr vertraut, aber ich glaube, dass einige Physiker in statistischen Tests viel niedrigere Schwellenwerte verwenden, aber sie sprechen etwas anders darüber. Wenn ein Maß beispielsweise drei Standardabweichungen von der theoretischen Vorhersage aufweist, wird es als "Drei-Sigma" -Abweichung beschrieben. Grundsätzlich bedeutet dies, dass sich der interessierende Parameter statistisch vom vorhergesagten Wert im az-Test mit α = 0,01 unterscheidet. Zwei Sigma entsprechen in etwa α = 0,05 (tatsächlich wären es 1,96 σ). Wenn ich mich nicht irre, beträgt die Standardfehlerstufe in der Physik 5 Sigma, was α = 5 * 10 ^ -7 wäre

Auch in den Neurowissenschaften oder in der Epidemiologie scheint es zunehmend üblich zu sein, routinemäßig einige Korrekturen für Mehrfachvergleiche durchzuführen. Die Fehlerstufe für jeden einzelnen Test kann daher niedriger als p <0,01 sein

Gala
quelle
1
α=5×10- -8
1

Wie von Gaël Laurans oben erwähnt, verwenden statistische Analysen, die auf das Mehrfachvergleichsproblem stoßen, tendenziell konservativere Schwellenwerte. Im Wesentlichen verwenden sie jedoch 0,05, multipliziert mit der Anzahl der Tests. Es ist offensichtlich, dass dieses Verfahren (Bonferroni-Korrektur) schnell zu unglaublich kleinen p-Werten führen kann. Deshalb haben Menschen in der Vergangenheit (in den Neurowissenschaften) bei p <0,001 angehalten. Heutzutage werden andere Methoden zur Mehrfachvergleichskorrektur verwendet (siehe Markov-Zufallsfeldtheorie).

user12719
quelle