Ich bin nicht einverstanden mit @fcoppens Sprung von der Erkenntnis der Bedeutung der Korrektur mehrerer Hypothesen innerhalb einer einzelnen Untersuchung zu der Behauptung, dass "nach derselben Überlegung dasselbe gilt, wenn mehrere Teams diese Tests durchführen".
Es steht außer Frage, dass je mehr Studien durchgeführt und je mehr Hypothesen getestet werden, desto mehr Fehler vom Typ I auftreten. Ich denke jedoch, dass hier Verwirrung über die Bedeutung von "familienbezogenen Fehlerraten" und deren Anwendung in der tatsächlichen wissenschaftlichen Arbeit herrscht.
Denken Sie zunächst daran, dass Korrekturen bei mehreren Tests normalerweise bei Post-hoc- Vergleichen auftraten, für die es keine vorformulierten Hypothesen gab. Es ist überhaupt nicht klar, dass die gleichen Korrekturen erforderlich sind, wenn es einen kleinen vordefinierten Satz von Hypothesen gibt.
Zweitens hängt die "wissenschaftliche Wahrheit" einer einzelnen Veröffentlichung nicht von der Wahrheit jeder einzelnen Aussage innerhalb der Veröffentlichung ab. Eine gut durchdachte Studie nähert sich einer allgemeinen wissenschaftlichen (im Gegensatz zu statistischen) Hypothese aus vielen verschiedenen Perspektiven und fasst verschiedene Arten von Ergebnissen zusammen, um die wissenschaftliche Hypothese zu bewerten . Jedes einzelne Ergebnis kann durch einen statistischen Test ausgewertet werden.
Nach dem Argument von @fcoppens führt dies jedoch zu einem "falschen Glauben an die 'wissenschaftliche Wahrheit'" , wenn selbst einer dieser einzelnen statistischen Tests einen Fehler vom Typ I macht. Das ist einfach falsch.
Die "wissenschaftliche Wahrheit" der wissenschaftlichen Hypothese in einer Veröffentlichung beruht im Gegensatz zur Gültigkeit eines einzelnen statistischen Tests im Allgemeinen auf einer Kombination verschiedener Arten von Beweisen. Das Beharren auf mehreren Arten von Beweisen macht die Gültigkeit einer wissenschaftlichen Hypothese robust gegenüber den einzelnen Fehlern, die unvermeidlich auftreten. Da ich auf meine 50 oder so wissenschaftlichen Publikationen zurückblicke, würde ich schwer tun , finden jeden , dass Reste in jedem Detail als @fcoppens auf so fehlerlos zu bestehen scheinen. Doch ich bin ähnlich schwer zu finden gedrückt jeder , wo die wissenschaftlicheHypothese war völlig falsch. Vielleicht unvollständig; sicherlich durch spätere Entwicklungen auf dem Gebiet irrelevant gemacht. Aber nicht "falsch" im Kontext des damaligen wissenschaftlichen Standes.
Drittens ignoriert das Argument die Kosten für Fehler vom Typ II. Ein Typ-II-Fehler könnte ganze Bereiche vielversprechender wissenschaftlicher Untersuchungen schließen. Wenn die Empfehlungen von @fcoppens befolgt würden, würden die Fehlerraten des Typs II zum Nachteil des wissenschaftlichen Unternehmens massiv ansteigen.
Schließlich ist es unmöglich, der Empfehlung in der Praxis zu folgen. Wenn ich eine Reihe öffentlich verfügbarer Daten analysiere, kann ich möglicherweise nicht wissen, ob oder zu welchem Zweck jemand anderes sie verwendet hat. Ich habe keine Möglichkeit, die Hypothesentests anderer zu korrigieren. Und wie ich oben argumentiere, sollte ich nicht müssen.
Beim Testen statistischer Hypothesen kann man statistische Beweise für die alternative Hypothese nur finden, indem man die Null ablehnt. Wenn man die Null ablehnt, kann man schließen, dass es Beweise für die alternative Hypothese gibt. (Siehe auch Was folgt, wenn wir die Nullhypothese nicht ablehnen? ).
Eine falsche Ablehnung der Null gibt uns also falsche Beweise, also einen falschen Glauben an die wissenschaftliche Wahrheit. Aus diesem Grund muss diese Inflation vom Typ I (die fast Verdoppelung des Fehlers vom Typ I) vermieden werden. Höhere Fehler vom Typ I implizieren mehr falsche Überzeugungen, dass etwas wissenschaftlich bewiesen ist . Daher kontrollieren die Leute den Typ Ierror auf familiärer Ebene.
Aus demselben Grund gilt dasselbe, wenn mehrere Teams diese Tests durchführen (mit denselben Daten).
Offensichtlich gelten die obigen Ergebnisse nur, wenn wir Teams an denselben Daten arbeiten . Was ist dann anders, wenn sie an verschiedenen Proben arbeiten?
Wenn wir also dieselben Daten verwenden, könnte es sein, dass die Schlussfolgerungen der Tests auf einer Stichprobe basieren, die mit "schlechten Chancen" gezogen wurde. Bei einem anderen Beispiel ist der Kontext anders.
quelle