Familienbezogene Fehlergrenze: Führt die Wiederverwendung von Datensätzen zu verschiedenen Studien unabhängiger Fragen zu mehreren Testproblemen?

Wenn ein Forscherteam mehrere (Hypothesen-) Tests an einem bestimmten Datensatz durchführt, gibt es eine Menge Literatur, in der behauptet wird, dass für mehrere Tests (Bonferroni usw.) eine Korrektur verwendet werden sollte, auch wenn die Tests unabhängig sind. Meine Frage lautet: Gilt dieselbe Logik für mehrere Teams, die Hypothesen mit demselben Datensatz testen? Anders gesagt - was ist die Barriere für die familienbezogenen Fehlerberechnungen? Sollten sich Forscher darauf beschränken, Datensätze nur für Explorationszwecke wiederzuverwenden?

hypothesis-testing multiple-comparisons toypajme
quelle

Antworten:

Ich bin nicht einverstanden mit @fcoppens Sprung von der Erkenntnis der Bedeutung der Korrektur mehrerer Hypothesen innerhalb einer einzelnen Untersuchung zu der Behauptung, dass "nach derselben Überlegung dasselbe gilt, wenn mehrere Teams diese Tests durchführen".

Es steht außer Frage, dass je mehr Studien durchgeführt und je mehr Hypothesen getestet werden, desto mehr Fehler vom Typ I auftreten. Ich denke jedoch, dass hier Verwirrung über die Bedeutung von "familienbezogenen Fehlerraten" und deren Anwendung in der tatsächlichen wissenschaftlichen Arbeit herrscht.

Denken Sie zunächst daran, dass Korrekturen bei mehreren Tests normalerweise bei Post-hoc- Vergleichen auftraten, für die es keine vorformulierten Hypothesen gab. Es ist überhaupt nicht klar, dass die gleichen Korrekturen erforderlich sind, wenn es einen kleinen vordefinierten Satz von Hypothesen gibt.

Zweitens hängt die "wissenschaftliche Wahrheit" einer einzelnen Veröffentlichung nicht von der Wahrheit jeder einzelnen Aussage innerhalb der Veröffentlichung ab. Eine gut durchdachte Studie nähert sich einer allgemeinen wissenschaftlichen (im Gegensatz zu statistischen) Hypothese aus vielen verschiedenen Perspektiven und fasst verschiedene Arten von Ergebnissen zusammen, um die wissenschaftliche Hypothese zu bewerten . Jedes einzelne Ergebnis kann durch einen statistischen Test ausgewertet werden.

Nach dem Argument von @fcoppens führt dies jedoch zu einem "falschen Glauben an die 'wissenschaftliche Wahrheit'" , wenn selbst einer dieser einzelnen statistischen Tests einen Fehler vom Typ I macht. Das ist einfach falsch.

Die "wissenschaftliche Wahrheit" der wissenschaftlichen Hypothese in einer Veröffentlichung beruht im Gegensatz zur Gültigkeit eines einzelnen statistischen Tests im Allgemeinen auf einer Kombination verschiedener Arten von Beweisen. Das Beharren auf mehreren Arten von Beweisen macht die Gültigkeit einer wissenschaftlichen Hypothese robust gegenüber den einzelnen Fehlern, die unvermeidlich auftreten. Da ich auf meine 50 oder so wissenschaftlichen Publikationen zurückblicke, würde ich schwer tun , finden jeden , dass Reste in jedem Detail als @fcoppens auf so fehlerlos zu bestehen scheinen. Doch ich bin ähnlich schwer zu finden gedrückt jeder , wo die wissenschaftlicheHypothese war völlig falsch. Vielleicht unvollständig; sicherlich durch spätere Entwicklungen auf dem Gebiet irrelevant gemacht. Aber nicht "falsch" im Kontext des damaligen wissenschaftlichen Standes.

Drittens ignoriert das Argument die Kosten für Fehler vom Typ II. Ein Typ-II-Fehler könnte ganze Bereiche vielversprechender wissenschaftlicher Untersuchungen schließen. Wenn die Empfehlungen von @fcoppens befolgt würden, würden die Fehlerraten des Typs II zum Nachteil des wissenschaftlichen Unternehmens massiv ansteigen.

Schließlich ist es unmöglich, der Empfehlung in der Praxis zu folgen. Wenn ich eine Reihe öffentlich verfügbarer Daten analysiere, kann ich möglicherweise nicht wissen, ob oder zu welchem Zweck jemand anderes sie verwendet hat. Ich habe keine Möglichkeit, die Hypothesentests anderer zu korrigieren. Und wie ich oben argumentiere, sollte ich nicht müssen.

EdM
quelle

Ich gab der Frage ein Kopfgeld, weil ich sie "vorwegnehmen" wollte. Der Grund, warum ich das tun wollte, war, dass ich denke, dass es nicht genug Aufmerksamkeit bekommt und dass - anscheinend - wie ich mit meiner Antwort erfahren habe - es keine Diskussion mehr darüber gibt. Wie zeigt, kann es eine interessante Diskussion sein, so dass Sie einen (+1)

@fcoppens danke, dass Sie dieses "upfront" gebracht haben

EdM

Seit diesem Beitrag bin ich auf ein großartiges Papier gestoßen, das sich auch mit diesem Thema von Salzberg befasst: "Über den Vergleich von Klassifikatoren: Zu vermeidende Fallstricke und ein empfohlener Ansatz" ( cs.ru.nl/~tomh/onderwijs/lrs/lrs_files/salzberg97comparing). pdf ). Ich schätze die Diskussion. Diese Art von Fragen wirft die Kluft zwischen Statistik und maschinellem Lernen / anderen angewandten Feldern auf, die in diesem Beitrag diskutiert wurde: stats.stackexchange.com/questions/1194/… ....

toypajme

Ein Artikel von Breiman befasst sich ebenfalls mit diesem Thema: projecteuclid.org/euclid.ss/1009213726 . Ich hoffe, dass diese Artikel als einfache Referenz für diejenigen dienen können, die an der aktuellen Forschung interessiert sind und Diskussionen zu diesem Thema veröffentlicht haben.

toypajme

α = 0.05

$\alpha=0.05$

$\alpha=5\%$ $H_0^{(1)}$ $H_1^{(1)}$ $H_0^{(2)}$ $H_1^{(2)}$

$H_0^{(1)}$ $\alpha=5\%$

$1 - (1-\alpha)^2$ $\alpha=5\%$ $9.75\%$

Beim Testen statistischer Hypothesen kann man statistische Beweise für die alternative Hypothese nur finden, indem man die Null ablehnt. Wenn man die Null ablehnt, kann man schließen, dass es Beweise für die alternative Hypothese gibt. (Siehe auch Was folgt, wenn wir die Nullhypothese nicht ablehnen? ).

Eine falsche Ablehnung der Null gibt uns also falsche Beweise, also einen falschen Glauben an die wissenschaftliche Wahrheit. Aus diesem Grund muss diese Inflation vom Typ I (die fast Verdoppelung des Fehlers vom Typ I) vermieden werden. Höhere Fehler vom Typ I implizieren mehr falsche Überzeugungen, dass etwas wissenschaftlich bewiesen ist . Daher kontrollieren die Leute den Typ Ierror auf familiärer Ebene.

$5\%$

Aus demselben Grund gilt dasselbe, wenn mehrere Teams diese Tests durchführen (mit denselben Daten).

Offensichtlich gelten die obigen Ergebnisse nur, wenn wir Teams an denselben Daten arbeiten . Was ist dann anders, wenn sie an verschiedenen Proben arbeiten?

$\sigma$ $H_0: \mu = 0$ $H_1: \mu \ne 0$ $\alpha=5\%$

$o$ $1.96\sigma$ $-1.96\sigma$

$5\%$ $H_0$ $H_0$ $\mu=0$ $H_0$ $o \not \in [-1.96\sigma;1.96\sigma$ $H_0$

Wenn wir also dieselben Daten verwenden, könnte es sein, dass die Schlussfolgerungen der Tests auf einer Stichprobe basieren, die mit "schlechten Chancen" gezogen wurde. Bei einem anderen Beispiel ist der Kontext anders.

Gemeinschaft
quelle

Ich bin kein Fan von "Beweisen" in Bezug auf wissenschaftliche Beweise.

Alexis

@Alexis: Es liegt sicherlich daran, dass Englisch nicht meine Muttersprache ist, aber ich dachte, dass "Beweise" und "Beweise" mehr oder mehr ein Synomym sind, aber das scheint nicht der Fall zu sein?

Der formale "Beweis" gehört meiner Meinung nach zur Mathematik. Oder gehört weniger formal in die Rechtsprechung. Für mich gehört der Beweis nicht zur Wissenschaft, denn das impliziert das Ende der Untersuchung und den Beginn des Dogmas, und in der Wissenschaft geht es im Wesentlichen um die Untersuchung. Auf Englisch (und in den USA) haben wir zum Beispiel ein rhetorisches Spiel, in dem Anti-Evolutions-Individuen sagen: "Die biologische Evolution ist nur eine Theorie und wurde nicht wissenschaftlich bewiesen ." Der Trick besteht natürlich darin, die Zuhörer dazu zu bringen, zu vergessen, dass die Wissenschaft niemals beweist, sondern nur Beweise liefert.

Alexis