Wir wissen, dass wir Benjamini-Hochberg-ähnliche Korrekturen für Mehrfachhypothesentests auf Experimente anwenden müssen, die auf einem einzigen Datensatz basieren, um die Rate falscher Entdeckungen zu kontrollieren. Andernfalls könnten alle Experimente, die ein positives Ergebnis liefern, falsch sein.
Aber warum wenden wir dieses Prinzip nicht auf alle Experimente seit Beginn der Zeit an, unabhängig davon, woher die Daten stammen?
Immerhin ist mehr als die Hälfte der veröffentlichten wissenschaftlichen Ergebnisse, die als "signifikant" eingestuft werden, als falsch und nicht reproduzierbar bekannt, und es gibt keinen Grund, warum dies nicht genauso einfach 100% sein könnte. Da Wissenschaftler nur dazu neigen, positive Ergebnisse zu veröffentlichen, wissen wir nicht, wie viele negative Ergebnisse vorliegen. Wir wissen also nicht, ob es sich bei dem veröffentlichten Ergebnis immer nur um falsch positive Ergebnisse handelt - positive Ergebnisse, die nach der Nullhypothese durch Zufall aufgetaucht sind. In der Zwischenzeit gibt es keine Anhaltspunkte dafür, dass die Berechnungen für Korrekturen bei mehreren Hypothesentests nur auf Ergebnisse aus demselben Datensatz und nicht auf Ergebnisse aus allen im Laufe der Zeit erfassten experimentellen Daten angewendet werden sollten.
Es scheint, dass die gesamte Wissenschaft zu einer großen Fischereiexpedition geworden ist, die auf falschen oder schwachen Hypothesen basiert. Wie können wir dies kontrollieren?
Wie können wir die Rate falscher Entdeckungen kontrollieren, wenn wir nur unabhängige Ergebnisse veröffentlichen, ohne die Korrektur mehrerer Hypothesentests für alle bisher durchgeführten Experimente vorzunehmen?
Ist es möglich , die Rate falscher Entdeckungen zu steuern, ohne eine solche Korrektur vorzunehmen?
Antworten:
Würde dies ein goldenes Zeitalter der Wissenschaft und der Vernunft einläuten? Nein wahrscheinlich nicht.
Dies gilt für einen einzelnen Test. Angenommen, Sie führen mehrere Tests durch und sind bereit, eine Wahrscheinlichkeit von 5% für eine versehentliche Annahme zu akzeptierenH0
Die verschiedenen Mehrfachkorrekturansätze sollen Ihnen helfen, zu einer nominalen Fehlerrate zurückzukehren, die Sie bereits für einzelne Tests toleriert haben. Sie tun dies auf etwas unterschiedliche Weise. Methoden, die die familienbezogene Fehlerrate steuern , wie die Bonferroni- , Sidak- und Holm-Prozeduren , besagen: "Sie wollten eine 5% ige Chance, einen Fehler in einem einzelnen Test zu machen, also stellen wir sicher, dass Sie nicht mehr als eine 5 haben % Chance, Fehler in all Ihren Tests zu machen. " Methoden zur Steuerung der False Discovery RateSagen Sie stattdessen "Es scheint in Ordnung zu sein, dass Sie bis zu 5% der Zeit mit einem einzelnen Test falsch liegen. Wir stellen daher sicher, dass nicht mehr als 5% Ihrer" Anrufe "falsch sind, wenn Sie mehrere Tests durchführen." (Sieh den Unterschied?)
Angenommen, Sie haben versucht, die familienbezogene Fehlerrate aller jemals durchgeführten Hypothesentests zu steuern . Sie sagen im Wesentlichen, dass Sie eine Chance von <5% haben möchten, eine Nullhypothese jemals fälschlicherweise abzulehnen. Dies setzt eine unglaublich strenge Schwelle fest und Inferenz wäre effektiv nutzlos, aber es gibt ein noch dringenderes Problem: Ihre globale Korrektur bedeutet, dass Sie absolut unsinnige "zusammengesetzte Hypothesen" wie testen
Mit Korrekturen der falschen Erkennungsrate ist das numerische Problem nicht ganz so schwerwiegend, aber es ist philosophisch immer noch ein Chaos. Stattdessen ist es sinnvoll, eine "Familie" verwandter Tests zu definieren, z. B. eine Liste von Kandidatengenen während einer Genomstudie oder eine Reihe von Zeit-Frequenz-Klassen während einer Spektralanalyse. Indem Sie Ihre Familie auf eine bestimmte Frage zuschneiden, können Sie Ihren Typ-I-Fehler direkt interpretieren. Sie könnten sich beispielsweise einen FWER-korrigierten Satz von p-Werten aus Ihren eigenen Genomdaten ansehen und sagen: "Es besteht eine Wahrscheinlichkeit von <5%, dass eines dieser Gene falsch positiv ist." Dies ist weitaus besser als eine nebulöse Garantie, die Schlussfolgerungen von Personen abdeckt, die Sie nicht für Themen interessieren, die Sie nicht interessieren.
Die Kehrseite davon ist, dass die richtige Wahl von "Familie" umstritten und ein bisschen subjektiv ist (Sind alle Gene eine Familie oder kann ich nur die Kinasen berücksichtigen?), Aber es sollte durch Ihr Problem informiert werden und ich glaube niemandem hat ernsthaft befürwortet, Familien fast so umfassend zu definieren.
Wie wäre es mit Bayes?
Die Bayes'sche Analyse bietet eine kohärente Alternative zu diesem Problem - wenn Sie bereit sind, sich ein wenig vom häufig auftretenden Fehler-Framework Typ I / Typ II zu entfernen. Wir beginnen mit etwas Unverbindlichem, bevor wir ... nun ... alles besprechen. Jedes Mal, wenn wir etwas lernen, wird diese Information mit der vorherigen kombiniert, um eine hintere Verteilung zu erzeugen, die wiederum die vorherige wird, wenn wir das nächste Mal etwas lernen. Dies gibt Ihnen eine kohärente Aktualisierungsregel und Sie können verschiedene Hypothesen zu bestimmten Dingen vergleichen, indem Sie den Bayes-Faktor zwischen zwei Hypothesen berechnen. Sie könnten vermutlich große Teile des Modells herausfiltern, was dies nicht einmal besonders belastend machen würde.
Es gibt ein andauerndes ... Mem, dass Bayes'sche Methoden keine mehrfachen Vergleichskorrekturen erfordern. Leider sind die hinteren Quoten nur eine weitere Teststatistik für Frequentisten (dh Menschen, die sich für Typ I / II-Fehler interessieren). Sie haben keine besonderen Eigenschaften, die diese Art von Fehlern kontrollieren. (Warum sollten sie?) Sie befinden sich also wieder auf unüberwindlichem Terrain, aber vielleicht auf etwas grundsätzlicherem Boden.
Das Bayes'sche Gegenargument ist, dass wir uns auf das konzentrieren sollten, was wir jetzt wissen können, und daher sind diese Fehlerraten nicht so wichtig.
Zur Reproduzierbarkeit
Sie scheinen zu vermuten, dass eine unsachgemäße Mehrfachvergleichskorrektur der Grund für viele inkorrekte / nicht reproduzierbare Ergebnisse ist. Meines Erachtens sind andere Faktoren eher ein Problem. Offensichtlich führt der Veröffentlichungsdruck dazu, dass Menschen Experimente meiden, die ihre Hypothese wirklich belasten (dh schlechtes experimentelles Design).
quelle
Ich denke, dass Sie absichtlich eine pessimistische Sicht der Wissenschaft zeichnen, die von der Statistik erzeugt wird. Meiner Meinung nach ist Statistik nicht nur eine Reihe von Tools, die p-Werte liefern. Es gibt auch einen gewissen Grad an Genauigkeit, Sorgfalt und Wachsamkeit in Bezug auf einige mögliche Auswirkungen, die mit dem Ablauf der wissenschaftlichen Einführung einhergehen. Meiner Meinung nach ist alles, was Sie sagen, ungefähr richtig. Hier sind einige meiner Meinungen darüber, warum wir einige Garantien haben über das Wissen, das wir produzieren:
Erstens sollte eine Schlussfolgerung im Allgemeinen nicht nur unter dem Argument eines p-Werts erzielt werden, der unter einem bestimmten Schwellenwert liegt.
Zweitens sind meines Wissens Argumente der Art "über die Hälfte der veröffentlichten wissenschaftlichen Ergebnisse sind falsch" relevant und interessant, werden jedoch auf der Grundlage von p-Werten berechnet, die ungefähr 0,05 entsprechen (siehe z. B. Verwirrung hinsichtlich p-Werten und falscher Entdeckungsrate ). . Für niedrigere p-Werte ist der Effekt viel geringer als der angekündigte und in der Praxis ist es nicht selten, dass p-Werte viel niedriger als 0,05 erhalten werden. Darüber hinaus wird eine gegebene Hypothese oft durch mehrere Unterhypothesen bestätigt, was die angekündigten Wirkungen erneut verringert.
Drittens ist die Frage der Reproduzierbarkeit echt, aber auch ein Problem, mit dem sich der Statistiker befassen muss, indem er störende Effekte und Gruppendesigns identifiziert und damit umgeht. Dies ist sehr gut möglich, wenn dies mit Sachverstand und Genauigkeit erfolgt.
Schließlich muss eine archetypische statistische Studie meines Wissens mehr oder weniger auf den folgenden 5 aufeinander folgenden Schritten beruhen:
Diese allgemeine Richtlinie hindert uns daran, Expeditionen als Instrument zur Erstellung allgemeiner Schlussfolgerungen zu fischen.
Abschließend möchte ich sagen, dass Ihre Absicht, uns durch Überschreitung der p-Werte vor schlechten wissenschaftlichen Schlussfolgerungen zu schützen, ein wenig illusorisch ist. Ich würde es vorziehen, uns vor schlechten wissenschaftlichen Schlussfolgerungen zu schützen, indem ich vorgewarnte und korrekte Analysen sicherstelle und ermutige (und ich würde gerne glauben, dass dies ein Grund ist, warum so viele qualifizierte Personen hier sind, um anderen auf dieser Site zu helfen).
quelle
Ja. Dies ist das, was ein Schwellenwert für p-Werte bewirkt: Er legt die Rate falscher Entdeckungen auf diesen Schwellenwert fest. Auf lange Sicht werden bei allen Tests nur echte Nullhypothesen zugrunde gelegt100a a
Denken Sie daran, dass (häufig auftretende) Fehlerraten überhaupt keine Wahrscheinlichkeiten für eine von einem einzelnen Test getestete Hypothese betreffen, sondern Methoden zur Durchführung von Tests mit garantierten langfristigen Fehlerraten. Die Korrektur für Mehrfachvergleiche ist eine weitere Methode zur Gewährleistung langfristiger Fehlerraten: Eine Methode zur Erstellung zusammengesetzter Methoden, die mehrere Tests enthalten, sodass einige garantierte langfristige Fehlerraten für die Verbindung gelten.
Wenn Sie ein einzelnes Experiment mit 100 Tests durchführen und melden, dass 5 von ihnen gegen die Null sprachen, und behaupten, Sie hätten ein echtes Ergebnis erzielt, wird niemand beeindruckt sein, wenn Sie wissen, dass bei 100 Tests mit echten Nullen durchschnittlich 5% der Ergebnisse erzielt werden ablehnen; Die von Ihnen angewendete Methode "100 Tests durchführen und melden, ob einer der Tests die 5% -Schwelle erreicht" weist eine höhere Fehlerrate als 5% auf. Daher können Sie die Kontrolle für mehrere Vergleiche auswählen und angeben, dass z. B. 2 von 100 Tests p-Werte unter (5/100 == 0,05)% aufwiesen. Jetzt wenden Sie eine Methode an, die erneut eine garantierte Fehlerquote (für den Fehler, mindestens einen signifikanten Test zu melden, obwohl keine Hypothesen falsch sind) von 5% aufweist.
quelle