Warum werden seit Anbeginn der Zeit nicht auf alle Experimente mehrere Hypothesenkorrekturen angewendet?

24

Wir wissen, dass wir Benjamini-Hochberg-ähnliche Korrekturen für Mehrfachhypothesentests auf Experimente anwenden müssen, die auf einem einzigen Datensatz basieren, um die Rate falscher Entdeckungen zu kontrollieren. Andernfalls könnten alle Experimente, die ein positives Ergebnis liefern, falsch sein.

Aber warum wenden wir dieses Prinzip nicht auf alle Experimente seit Beginn der Zeit an, unabhängig davon, woher die Daten stammen?

Immerhin ist mehr als die Hälfte der veröffentlichten wissenschaftlichen Ergebnisse, die als "signifikant" eingestuft werden, als falsch und nicht reproduzierbar bekannt, und es gibt keinen Grund, warum dies nicht genauso einfach 100% sein könnte. Da Wissenschaftler nur dazu neigen, positive Ergebnisse zu veröffentlichen, wissen wir nicht, wie viele negative Ergebnisse vorliegen. Wir wissen also nicht, ob es sich bei dem veröffentlichten Ergebnis immer nur um falsch positive Ergebnisse handelt - positive Ergebnisse, die nach der Nullhypothese durch Zufall aufgetaucht sind. In der Zwischenzeit gibt es keine Anhaltspunkte dafür, dass die Berechnungen für Korrekturen bei mehreren Hypothesentests nur auf Ergebnisse aus demselben Datensatz und nicht auf Ergebnisse aus allen im Laufe der Zeit erfassten experimentellen Daten angewendet werden sollten.

Es scheint, dass die gesamte Wissenschaft zu einer großen Fischereiexpedition geworden ist, die auf falschen oder schwachen Hypothesen basiert. Wie können wir dies kontrollieren?

Wie können wir die Rate falscher Entdeckungen kontrollieren, wenn wir nur unabhängige Ergebnisse veröffentlichen, ohne die Korrektur mehrerer Hypothesentests für alle bisher durchgeführten Experimente vorzunehmen?

Ist es möglich , die Rate falscher Entdeckungen zu steuern, ohne eine solche Korrektur vorzunehmen?

Kelvin
quelle
2
Ihre eigene Frage meta.stats.stackexchange.com/questions/3049/… gilt. Dies bündelt mehrere kontroverse (teilweise stark übertriebene) Aussagen mit mehreren großen Fragen. Ich denke, das widerspricht dem Konsens der Ratschläge, die Sie bereits erhalten haben.
Nick Cox
3
Entschuldigung, ich weiß nicht, auf welche Antworten Sie sich beziehen: Ich sehe hier keine Referenzen. Ich stimme weder für das Schließen, noch habe ich (natürlich) den Wunsch oder die Macht, die Menschen davon abzuhalten, zu antworten. Aber zum Beispiel ist "seit Anbeginn der Zeit" ein kleines Beispiel für sinnlose Übertreibung, und es gibt mehrere andere in Ihrem Beitrag. Selbst provokativ zu sein, wird meiner Erfahrung nach Ihrer zugrunde liegenden Frage nicht weiterhelfen. Leser müssen den Stil von der Substanz abstreifen.
Nick Cox
3
Danke für die Einladung, aber das Leben ist kurz. Ich werde meinen Querverweis auf den Meta-Thread als meinen Hauptpunkt stehen lassen. Ich habe meine Meinung zu Stil und Substanz zum Ausdruck gebracht, die hier in ihrer Bedeutung stehen oder fallen kann.
Nick Cox
9
Wenn ich Wissenschaft mache, ist es mir egal, welche falschen Entdeckungen Sie gemacht haben. In der Tat ist es mir im Hinblick auf eine bestimmte wissenschaftliche Behauptung vielleicht egal, welche anderen falschen Entdeckungen ich gemacht habe. Wenn ich keine Wissenschaft mache, ist es mir vielleicht sogar egal, welche anderen falschen Entdeckungen ich in dieser speziellen Analyse gemacht habe - denn wenn ich meine Fehlerrate für Typ I auf der Grundlage der relativen Kosten der beiden Fehlertypen wähle, habe ich habe bereits den Kompromiss zwischen den beiden gewählt und sollte nicht für mehrere Vergleiche überhaupt korrigieren.
Glen_b
2
Glücklicherweise haben andere Ansichten, die meinen ähneln, kohärent und klar dargestellt. Als zusätzlichen Kommentar rate ich davon ab, die Wissenschaft (was auch immer von bleibendem Wert ist) mit ihrer Literatur zu verschmelzen. Es gibt viele Wege, wie die Literatur enttäuscht wird: Unbestimmtheit, Trivialität, logische Fehler usw. Kurz gesagt, jeder ist durch den Gedanken all jener veröffentlichten falsch positiven Tests bestürzt, aber man muss glauben, dass sie dauerhafte Auswirkungen haben und auf sie einwirken. (Wenn es sich um eine Drogenstudie handelt, kann das eine große Sache sein.) Es gibt also viele Dinge, über die man sich Sorgen machen muss, aber ich denke nicht, dass die Wissenschaft zum Scheitern verurteilt ist.
Nick Cox

Antworten:

20

p

Würde dies ein goldenes Zeitalter der Wissenschaft und der Vernunft einläuten? Nein wahrscheinlich nicht.


t
H0: The groups have the same mean.HA: The groups have different means.
H0H0Die Hypothese ist in gewissem Sinne "langweilig", und Forscher bemühen sich in der Regel darum, eine "falsch positive" Situation zu vermeiden, in der sie behaupten, einen Unterschied zwischen den Gruppen gefunden zu haben, in denen keine wirklich existiert. Daher bezeichnen wir Ergebnisse nur dann als "signifikant", wenn sie unter der Nullhypothese unwahrscheinlich erscheinen und die Unwahrscheinlichkeitsschwelle gemäß Konvention auf 5% festgelegt ist.

Dies gilt für einen einzelnen Test. Angenommen, Sie führen mehrere Tests durch und sind bereit, eine Wahrscheinlichkeit von 5% für eine versehentliche Annahme zu akzeptierenH0

Die verschiedenen Mehrfachkorrekturansätze sollen Ihnen helfen, zu einer nominalen Fehlerrate zurückzukehren, die Sie bereits für einzelne Tests toleriert haben. Sie tun dies auf etwas unterschiedliche Weise. Methoden, die die familienbezogene Fehlerrate steuern , wie die Bonferroni- , Sidak- und Holm-Prozeduren , besagen: "Sie wollten eine 5% ige Chance, einen Fehler in einem einzelnen Test zu machen, also stellen wir sicher, dass Sie nicht mehr als eine 5 haben % Chance, Fehler in all Ihren Tests zu machen. " Methoden zur Steuerung der False Discovery RateSagen Sie stattdessen "Es scheint in Ordnung zu sein, dass Sie bis zu 5% der Zeit mit einem einzelnen Test falsch liegen. Wir stellen daher sicher, dass nicht mehr als 5% Ihrer" Anrufe "falsch sind, wenn Sie mehrere Tests durchführen." (Sieh den Unterschied?)


Angenommen, Sie haben versucht, die familienbezogene Fehlerrate aller jemals durchgeführten Hypothesentests zu steuern . Sie sagen im Wesentlichen, dass Sie eine Chance von <5% haben möchten, eine Nullhypothese jemals fälschlicherweise abzulehnen. Dies setzt eine unglaublich strenge Schwelle fest und Inferenz wäre effektiv nutzlos, aber es gibt ein noch dringenderes Problem: Ihre globale Korrektur bedeutet, dass Sie absolut unsinnige "zusammengesetzte Hypothesen" wie testen

H1:Drug XYZ changes T-cell count Grapes grow better in some fields Men and women eat different amounts of ice cream

Mit Korrekturen der falschen Erkennungsrate ist das numerische Problem nicht ganz so schwerwiegend, aber es ist philosophisch immer noch ein Chaos. Stattdessen ist es sinnvoll, eine "Familie" verwandter Tests zu definieren, z. B. eine Liste von Kandidatengenen während einer Genomstudie oder eine Reihe von Zeit-Frequenz-Klassen während einer Spektralanalyse. Indem Sie Ihre Familie auf eine bestimmte Frage zuschneiden, können Sie Ihren Typ-I-Fehler direkt interpretieren. Sie könnten sich beispielsweise einen FWER-korrigierten Satz von p-Werten aus Ihren eigenen Genomdaten ansehen und sagen: "Es besteht eine Wahrscheinlichkeit von <5%, dass eines dieser Gene falsch positiv ist." Dies ist weitaus besser als eine nebulöse Garantie, die Schlussfolgerungen von Personen abdeckt, die Sie nicht für Themen interessieren, die Sie nicht interessieren.

Die Kehrseite davon ist, dass die richtige Wahl von "Familie" umstritten und ein bisschen subjektiv ist (Sind alle Gene eine Familie oder kann ich nur die Kinasen berücksichtigen?), Aber es sollte durch Ihr Problem informiert werden und ich glaube niemandem hat ernsthaft befürwortet, Familien fast so umfassend zu definieren.


Wie wäre es mit Bayes?

Die Bayes'sche Analyse bietet eine kohärente Alternative zu diesem Problem - wenn Sie bereit sind, sich ein wenig vom häufig auftretenden Fehler-Framework Typ I / Typ II zu entfernen. Wir beginnen mit etwas Unverbindlichem, bevor wir ... nun ... alles besprechen. Jedes Mal, wenn wir etwas lernen, wird diese Information mit der vorherigen kombiniert, um eine hintere Verteilung zu erzeugen, die wiederum die vorherige wird, wenn wir das nächste Mal etwas lernen. Dies gibt Ihnen eine kohärente Aktualisierungsregel und Sie können verschiedene Hypothesen zu bestimmten Dingen vergleichen, indem Sie den Bayes-Faktor zwischen zwei Hypothesen berechnen. Sie könnten vermutlich große Teile des Modells herausfiltern, was dies nicht einmal besonders belastend machen würde.

Es gibt ein andauerndes ... Mem, dass Bayes'sche Methoden keine mehrfachen Vergleichskorrekturen erfordern. Leider sind die hinteren Quoten nur eine weitere Teststatistik für Frequentisten (dh Menschen, die sich für Typ I / II-Fehler interessieren). Sie haben keine besonderen Eigenschaften, die diese Art von Fehlern kontrollieren. (Warum sollten sie?) Sie befinden sich also wieder auf unüberwindlichem Terrain, aber vielleicht auf etwas grundsätzlicherem Boden.

Das Bayes'sche Gegenargument ist, dass wir uns auf das konzentrieren sollten, was wir jetzt wissen können, und daher sind diese Fehlerraten nicht so wichtig.


Zur Reproduzierbarkeit

Sie scheinen zu vermuten, dass eine unsachgemäße Mehrfachvergleichskorrektur der Grund für viele inkorrekte / nicht reproduzierbare Ergebnisse ist. Meines Erachtens sind andere Faktoren eher ein Problem. Offensichtlich führt der Veröffentlichungsdruck dazu, dass Menschen Experimente meiden, die ihre Hypothese wirklich belasten (dh schlechtes experimentelles Design).

p

Matt Krause
quelle
Vielen Dank, Matt. Ich liebe die Idee eines "statistischen Sultans". Ist es dennoch möglich, die Rate falscher Entdeckungen zu steuern, ohne eine solche Korrektur anzuwenden?
Kelvin
9
Der Punkt, den ich anstrebte , ist, dass es keinen Sinn macht, sich über alle menschlichen Bestrebungen hinweg Gedanken über die False Discovery Rate (oder familienbezogene Fehlerrate) zu machen . Dies würde so viel Risikoaversion erfordern, dass Sie nie etwas tun würden. Stattdessen halten Sie die FDR / FWER für einzelne Experimente ziemlich niedrig und versuchen, die wichtigen Dinge zu replizieren, die auch interessant / nützlich / etc sind.
Matt Krause
Danke, am Ende kommt es wohl darauf an, Dinge zu replizieren, die wichtig sind. Dies steht in völliger Übereinstimmung mit der Wissenschaftsphilosophie, dass keine Hypothese jemals bewiesen werden kann, sondern nur durch wiederholte Experimente im Laufe der Zeit gestärkt wird.
Kelvin
3
+1 für den Statistischen Sultan. Eine wichtige Überlegung: Wie sollte Sultan damit umgehen, dass p-Werte nacheinander eintreffen? Ein mieses p = 0.045, das zuerst eintrifft, wird als signifikant angesehen, aber nach ein paar Jahrhunderten wird es keine Chance mehr geben? Das scheint keinen Sinn zu ergeben (vgl. @ Kelvin). Eine weitere Überlegung: Stellen Sie sich vor, Sultan würde auf ein Jahr warten und die Korrektur auf alle Ergebnisse des vergangenen Jahres anwenden. Ich frage mich, was die angepasste Alpha-Schwelle in der Praxis tatsächlich werden würde. Irgendwelche Ideen dazu, Matt? Das ist (fälschlicherweise!) Die Annahme, dass sich alle auf ein gemeinsames Alpha einigen.
Amöbe sagt Reinstate Monica
2
@amoeba, das ist eine interessante Frage und ich bin mir nicht sicher, ob ich es weiß. Unser geliebter Data Despot könnte jeden dazu zwingen, eine Art sequentielles Design zu verwenden, was vielleicht hilft, aber er testet immer noch diese seltsame Verbundhypothese. Alternativ könnten wir alle Bayesianer werden und uns die meiste Zeit keine Gedanken mehr über unsere Typ-I / II-Fehlerbilanz machen. Dies ist ein wenig billig (wenn Sie sie nicht schlagen können, ignorieren Sie sie!), Aber ich denke, es ist in etwa so, wie sich die Leute in der Praxis verhalten.
Matt Krause
7

Ich denke, dass Sie absichtlich eine pessimistische Sicht der Wissenschaft zeichnen, die von der Statistik erzeugt wird. Meiner Meinung nach ist Statistik nicht nur eine Reihe von Tools, die p-Werte liefern. Es gibt auch einen gewissen Grad an Genauigkeit, Sorgfalt und Wachsamkeit in Bezug auf einige mögliche Auswirkungen, die mit dem Ablauf der wissenschaftlichen Einführung einhergehen. Meiner Meinung nach ist alles, was Sie sagen, ungefähr richtig. Hier sind einige meiner Meinungen darüber, warum wir einige Garantien haben über das Wissen, das wir produzieren:

  • Erstens sollte eine Schlussfolgerung im Allgemeinen nicht nur unter dem Argument eines p-Werts erzielt werden, der unter einem bestimmten Schwellenwert liegt.

  • Zweitens sind meines Wissens Argumente der Art "über die Hälfte der veröffentlichten wissenschaftlichen Ergebnisse sind falsch" relevant und interessant, werden jedoch auf der Grundlage von p-Werten berechnet, die ungefähr 0,05 entsprechen (siehe z. B. Verwirrung hinsichtlich p-Werten und falscher Entdeckungsrate ). . Für niedrigere p-Werte ist der Effekt viel geringer als der angekündigte und in der Praxis ist es nicht selten, dass p-Werte viel niedriger als 0,05 erhalten werden. Darüber hinaus wird eine gegebene Hypothese oft durch mehrere Unterhypothesen bestätigt, was die angekündigten Wirkungen erneut verringert.

  • Drittens ist die Frage der Reproduzierbarkeit echt, aber auch ein Problem, mit dem sich der Statistiker befassen muss, indem er störende Effekte und Gruppendesigns identifiziert und damit umgeht. Dies ist sehr gut möglich, wenn dies mit Sachverstand und Genauigkeit erfolgt.

  • Schließlich muss eine archetypische statistische Studie meines Wissens mehr oder weniger auf den folgenden 5 aufeinander folgenden Schritten beruhen:

    Formulate one or a few hypotheses
    Design the corresponding study
    Acquire the data
    Analyse the data
    Make conclusions about the above hypotheses (and only these ones)
    

    Diese allgemeine Richtlinie hindert uns daran, Expeditionen als Instrument zur Erstellung allgemeiner Schlussfolgerungen zu fischen.

Abschließend möchte ich sagen, dass Ihre Absicht, uns durch Überschreitung der p-Werte vor schlechten wissenschaftlichen Schlussfolgerungen zu schützen, ein wenig illusorisch ist. Ich würde es vorziehen, uns vor schlechten wissenschaftlichen Schlussfolgerungen zu schützen, indem ich vorgewarnte und korrekte Analysen sicherstelle und ermutige (und ich würde gerne glauben, dass dies ein Grund ist, warum so viele qualifizierte Personen hier sind, um anderen auf dieser Site zu helfen).

peuhp
quelle
2
Ich denke nicht, dass es hilft, defensiv zu werden. Die aktuelle Frage der Irreproduzierbarkeit in der Wissenschaft ist nicht nur "interessant", sondern befindet sich an einem Krisenpunkt und wurde von der Natur und sogar vom Wirtschaftswissenschaftler behandelt, seitdem er an eine bestimmte Studie (oder sogar an die Wirksamkeit eines zugelassenen Arzneimittels) geglaubt hat ) ist jetzt nicht besser als ein Münzwurf, obwohl Milliarden von Dollar investiert wurden.
Kelvin
6
Ich stimme zu, dass eine Krise besteht. Mein Punkt ist, dass Sie die Qualität der Münze überprüfen können. Nicht alle Papiere haben die gleiche Qualität, und meiner Erfahrung nach ist es manchmal leicht, fehlerhaftes Papier zu erkennen. Ich leugne das Problem nicht Ich leugne die Lösung: nur korrekte Analyse erstellen :)
peuhp
Ok, danke, ich respektiere deine Antwort. Aus statistischer Sicht und unabhängig von der Qualität der Experimente können wir jedoch niemals die gesamte Rate falscher Entdeckungen kontrollieren, ohne eine solche Korrektur vorzunehmen, oder?
Kelvin
0

Ist es möglich, die Rate falscher Entdeckungen zu steuern, ohne eine solche Korrektur vorzunehmen?

Ja. Dies ist das, was ein Schwellenwert für p-Werte bewirkt: Er legt die Rate falscher Entdeckungen auf diesen Schwellenwert fest. Auf lange Sicht werden bei allen Tests nur echte Nullhypothesen zugrunde gelegt100aa

Denken Sie daran, dass (häufig auftretende) Fehlerraten überhaupt keine Wahrscheinlichkeiten für eine von einem einzelnen Test getestete Hypothese betreffen, sondern Methoden zur Durchführung von Tests mit garantierten langfristigen Fehlerraten. Die Korrektur für Mehrfachvergleiche ist eine weitere Methode zur Gewährleistung langfristiger Fehlerraten: Eine Methode zur Erstellung zusammengesetzter Methoden, die mehrere Tests enthalten, sodass einige garantierte langfristige Fehlerraten für die Verbindung gelten.

Wenn Sie ein einzelnes Experiment mit 100 Tests durchführen und melden, dass 5 von ihnen gegen die Null sprachen, und behaupten, Sie hätten ein echtes Ergebnis erzielt, wird niemand beeindruckt sein, wenn Sie wissen, dass bei 100 Tests mit echten Nullen durchschnittlich 5% der Ergebnisse erzielt werden ablehnen; Die von Ihnen angewendete Methode "100 Tests durchführen und melden, ob einer der Tests die 5% -Schwelle erreicht" weist eine höhere Fehlerrate als 5% auf. Daher können Sie die Kontrolle für mehrere Vergleiche auswählen und angeben, dass z. B. 2 von 100 Tests p-Werte unter (5/100 == 0,05)% aufwiesen. Jetzt wenden Sie eine Methode an, die erneut eine garantierte Fehlerquote (für den Fehler, mindestens einen signifikanten Test zu melden, obwohl keine Hypothesen falsch sind) von 5% aufweist.

ein werden Sie Mal einen signifikanten Effekt feststellen, wenn alle Ihre Tests von echten Hypothesen ausgehen. Das heißt, wenn buchstäblich jede einzelne Hypothese, die jemals getestet wurde, wahr wäre und jeder immer> 1 Test pro Studie durchführte und die studienweise FWE-Kontrolle anwendete, würden 5% der Studien signifikante Ergebnisse melden (und 5% aller Personen) Tests wären unter ihrem Original signifikantunkorrigierte Schwellenwerte). Im Gegensatz dazu würde die Anzahl der Experimente mit signifikanten Auswirkungen die garantierte Fehlerrate von 5% überschreiten, wenn jeder immer 100 wahre Hypothesen pro Studie testet und FEW nicht anwendet. (Im Gegensatz zur FDR / False-Detection-Rate, die keine Methode ist, die die Rate der Meldungen signifikanter Tests in einer Studie mit mehreren Tests wahrer Hypothesen garantiert.)

jona
quelle
6
Was Sie in Ihrem ersten Absatz als "Rate falscher Entdeckungen" bezeichnen, wird nicht als "Rate falscher Entdeckungen" bezeichnet.
Amöbe sagt Reinstate Monica