Ich komme aus den Sozialwissenschaften, wo p <0,05 so ziemlich die Norm ist, wobei auch p <0,1 und p <0,01 auftauchen, aber ich habe mich gefragt: In welchen Studienbereichen werden, wenn überhaupt, niedrigere p-Werte als häufig verwendet Standard?
Ich komme aus den Sozialwissenschaften, wo p <0,05 so ziemlich die Norm ist, wobei auch p <0,1 und p <0,01 auftauchen, aber ich habe mich gefragt: In welchen Studienbereichen werden, wenn überhaupt, niedrigere p-Werte als häufig verwendet Standard?
Meiner Meinung nach hängt (und sollte) dies nicht vom Studienfach ab. Zum Beispiel können Sie mit einem niedrigeren Signifikanzniveau als wenn Sie beispielsweise versuchen, eine Studie mit historischen oder gut etablierten Ergebnissen zu replizieren (ich kann mir mehrere Studien zum Stroop-Effekt vorstellen , die dazu geführt haben zu einigen Kontroversen in den letzten Jahren). Dies bedeutet eine niedrigere "Schwelle" innerhalb des klassischen Neyman-Pearson-Rahmens zum Testen der Hypothese. Die statistische und praktische (oder inhaltliche) Bedeutung ist jedoch eine andere Sache.
Nebenbemerkung . Das "Sternensystem" scheint bereits in den 70er Jahren die wissenschaftlichen Untersuchungen dominiert zu haben, siehe jedoch The Earth Is Round (p <0,05) von J. Cohen ( American Psychologist , 1994, 49 (12), 997-1003). Wie hoch ist die Wahrscheinlichkeit, dass wahr ist, obwohl das, was wir oft wissen wollen, die von mir beobachteten Daten enthält ? Wie auch immer, es gibt auch eine nette Diskussion über " Warum P = 0,05? " Von Jerry Dallal.
Es mag selten vorkommen, dass jemand einen vorgegebenen Alpha-Wert unter beispielsweise 0,01 verwendet, aber es ist bei weitem nicht so selten, dass Menschen ein implizites Alpha von weniger als 0,01 behaupten, wenn sie fälschlicherweise glauben, dass ein beobachteter P-Wert kleiner als 0,01 ist 0,01 entspricht einem Neyman-Pearson-Alpha von weniger als 0,01.
Schauen Sie sich Hubbard et al. Verwirrung über Evidenzmaße (ps) gegenüber Fehlern (αs) bei klassischen statistischen Tests. The American Statistician (2003) vol. 57 (3)
quelle
Ich bin mit dieser Literatur nicht sehr vertraut, aber ich glaube, dass einige Physiker in statistischen Tests viel niedrigere Schwellenwerte verwenden, aber sie sprechen etwas anders darüber. Wenn ein Maß beispielsweise drei Standardabweichungen von der theoretischen Vorhersage aufweist, wird es als "Drei-Sigma" -Abweichung beschrieben. Grundsätzlich bedeutet dies, dass sich der interessierende Parameter statistisch vom vorhergesagten Wert im az-Test mit α = 0,01 unterscheidet. Zwei Sigma entsprechen in etwa α = 0,05 (tatsächlich wären es 1,96 σ). Wenn ich mich nicht irre, beträgt die Standardfehlerstufe in der Physik 5 Sigma, was α = 5 * 10 ^ -7 wäre
Auch in den Neurowissenschaften oder in der Epidemiologie scheint es zunehmend üblich zu sein, routinemäßig einige Korrekturen für Mehrfachvergleiche durchzuführen. Die Fehlerstufe für jeden einzelnen Test kann daher niedriger als p <0,01 sein
quelle
Wie von Gaël Laurans oben erwähnt, verwenden statistische Analysen, die auf das Mehrfachvergleichsproblem stoßen, tendenziell konservativere Schwellenwerte. Im Wesentlichen verwenden sie jedoch 0,05, multipliziert mit der Anzahl der Tests. Es ist offensichtlich, dass dieses Verfahren (Bonferroni-Korrektur) schnell zu unglaublich kleinen p-Werten führen kann. Deshalb haben Menschen in der Vergangenheit (in den Neurowissenschaften) bei p <0,001 angehalten. Heutzutage werden andere Methoden zur Mehrfachvergleichskorrektur verwendet (siehe Markov-Zufallsfeldtheorie).
quelle