Verwechslung mit falscher Entdeckungsrate und mehrfachen Tests (auf Colquhoun 2014)

Ich habe diesen großartigen Artikel von David Colquhoun gelesen: Eine Untersuchung der Rate falscher Entdeckungen und der Fehlinterpretation von p-Werten (2014). Im Wesentlichen erklärt er, warum die Rate falscher Entdeckungen (FDR) bis zu betragen kann, obwohl wir den Fehler vom Typ I mit kontrollieren . $30\%$ $\alpha=0.05$

Ich bin jedoch immer noch verwirrt, was passiert, wenn ich bei mehreren Tests die FDR-Kontrolle anwende.

Angenommen, ich habe für jede der vielen Variablen einen Test durchgeführt und die Werte mit dem Benjamini-Hochberg-Verfahren berechnet . Ich habe eine Variable, die mit signifikant ist . Ich frage, was ist der FDR für diesen Befund? $q$ $q=0.049$

Kann ich davon ausgehen, dass der FDR auf lange Sicht, wenn ich eine solche Analyse regelmäßig durchführe, nicht , sondern weniger als beträgt , weil ich Benjamini-Hochberg verwendet habe? Das fühlt sich falsch an, ich würde sagen, dass der Wert dem Wert in Colquhouns Artikel entspricht und seine Argumentation auch hier gilt, so dass ich durch die Verwendung eines Schwellenwerts von Risiko habe, mich selbst zum Narren zu halten Colquhoun schreibt es) in der Fälle. Ich habe jedoch versucht, es formeller zu erklären und bin gescheitert. $30\%$ $5\%$ $q$ $p$ $q$ $0.05$ $30\%$

hypothesis-testing statistical-significance p-value multiple-comparisons false-discovery-rate Januar
quelle

Hey @Januar, ich frage mich, warum du so ein großes Kopfgeld (250) anbietest und dann niemals zurückkommst, um es zu vergeben und / oder die Antworten zu überprüfen! Hoffe es geht dir gut.

Amöbe sagt Reinstate Monica

Zwei Manuskripte fielen wie eine Tonne Ziegel auf mich herab und ich vergaß es total.

Januar

Antworten:

Zufällig habe ich vor ein paar Wochen dieselbe Zeitung gelesen. Colquhoun erwähnt in Abschnitt 4 mehrere Vergleiche (einschließlich Benjamini-Hochberg), wenn er das Problem aufwirft, aber ich stelle fest, dass er das Problem nicht klar genug macht - daher wundere ich mich nicht über Ihre Verwirrung.

Der wichtige Punkt zu erkennen ist, dass Colquhoun über die Situation spricht, ohne mehrere Vergleichseinstellungen vorzunehmen. Man kann Colquhouns Artikel so verstehen, dass er die Perspektive eines Lesers einnimmt: Er fragt im Wesentlichen, mit welcher Falschentdeckungsrate (FDR) er beim Lesen von wissenschaftlicher Literatur rechnen kann, und dies bedeutet, was der erwartete FDR ist, wenn keine mehrfachen Vergleichsbereinigungen vorgenommen wurden. Mehrere Vergleiche können berücksichtigt werden, wenn mehrere statistische Tests in einer Studie durchgeführt werden, z. B. in einer Arbeit. Aber niemand kann sich auf mehrere Vergleiche zwischen verschiedenen Papieren einstellen .

Wenn Sie FDR tatsächlich kontrollieren, z. B. durch Befolgen des Benjamini-Hochberg (BH) -Verfahrens, wird es kontrolliert. Das Problem ist, dass die Durchführung einer BH-Prozedur in jeder Studie nicht die gesamte FDR-Kontrolle garantiert.

Kann ich davon ausgehen, dass der FDR auf lange Sicht, wenn ich eine solche Analyse regelmäßig durchführe, nicht , sondern weniger als beträgt , weil ich Benjamini-Hochberg verwendet habe? $30\%$ $5\%$

Nein. Wenn Sie das BH-Verfahren in jeder Arbeit anwenden, aber in jeder Arbeit unabhängig, können Sie Ihre BH-bereinigten Werte im Wesentlichen als normale Werte interpretieren , und was Colquhoun sagt, gilt immer noch. $p$ $p$

Allgemeine Bemerkungen

$100\%$ $30\%$

Ich denke, das Papier ist größtenteils vernünftig, aber ich mag nicht, dass es einige Behauptungen viel zu mutig erscheinen lässt. ZB ist der erste Satz des Abstracts:

$p=0.05$ $30\%$

Dies ist zu stark formuliert und kann tatsächlich irreführend sein.

Amöbe sagt Reinstate Monica
quelle

Zugegeben, ich habe das Papier nur ziemlich schnell durchgesehen, aber es scheint mir, dass er im Wesentlichen nur die bekannte Annahme wiederholt, dass es bei großen Stichproben leicht ist, Störeffekte zu finden (z. B. Abbildung 1). Das heißt nicht, dass es nicht aussagekräftig ist, sondern dass ich der Meinung bin, dass es eine andere (und weniger kühn ausgesprochene) Interpretation haben sollte als der Autor.

Ryan Simmons

Ich bin mir nicht sicher, warum @RyanSimmons sagt, dass ich "im Wesentlichen nur die bekannte Annahme wiederholt habe, dass es leicht ist, bei großen Stichproben Störeffekte zu finden". Es hatte nichts mit großen Stichproben zu tun! Ich würde wirklich eine Erklärung begrüßen, warum er der Meinung ist, dass das Papier "eine andere (und weniger kühne) Interpretation haben sollte".

David Colquhoun

"Aber niemand stellt sich jemals auf mehrere Vergleiche zwischen verschiedenen Papieren ein. Es wäre auch ziemlich unmöglich, das zu tun." Ich dachte, einer der Vorteile falscher Anpassungen der Erkennungsrate gegenüber Anpassungen der Fehlerrate in der Familie sei , dass letztere eine Definition der Familie erfordern, während erstere über eine willkürliche Anzahl von Vergleichen skalierbar ist .

Alexis

p \leq α

$p\le \alpha$

p

$p$

Nun, was Sie beschreiben, ist sicherlich kein Mehrfachvergleichsverfahren. Das Durchführen von FDR-basierten Anpassungsmethoden für beispielsweise 5 Tests und das anschließende Hinzufügen von 20 weiteren zu dem Satz von 10 und das erneute Durchführen derselben Methode bewahren jedoch die Ablehnungswahrscheinlichkeiten unter FDR, aber diese Ablehnungswahrscheinlichkeiten ändern sich unter FWER. Dunns Bonferroni-Anpassung liefert ein ziemlich dramatisches Beispiel.

Alexis

Benjamini & Hochberg definieren die Rate falscher Entdeckungen genauso wie ich, als den Bruchteil positiver Tests, die falsch positiv sind. Wenn Sie also deren Verfahren für mehrere Vergleiche verwenden, steuern Sie FDR ordnungsgemäß. Es ist jedoch erwähnenswert, dass es eine ganze Reihe von Varianten der BH-Methode gibt. Benjamins Seminare in Berkeley sind auf Youtube und sehenswert:

Teil I: https://www.youtube.com/watch?v=oONHlua2gBY
Teil II: https://www.youtube.com/watch?v=inUr5I5WKAM

Ich bin nicht sicher, warum @amoeba sagt "Dies ist zu stark formuliert und kann tatsächlich irreführend sein". Es würde mich interessieren, warum er / sie das denkt. Das überzeugendste Argument stammt aus den simulierten t-Tests (Abschnitt 6). Das ahmt nach, was fast jeder in der Praxis tut, und es zeigt, dass Sie in mindestens 26% der Fälle falsch liegen, wenn Sie P nahe 0,047 beobachten und behaupten, eine Entdeckung gemacht zu haben. Was kann schon schief gehen?

Natürlich sollte ich das nicht als Minimum bezeichnen. Es ist das, was Sie erhalten, wenn Sie davon ausgehen, dass es eine 50% ige Chance gibt, dass es einen echten Effekt gibt. Wenn Sie davon ausgehen, dass die meisten Ihrer Hypothesen im Voraus richtig sind, können Sie einen niedrigeren FDR-Wert als 26% erreichen. Stellen Sie sich jedoch die Heiterkeit vor, mit der Sie die Behauptung aufstellen würden, Sie hätten aufgrund dieser Annahme eine Entdeckung gemacht Sie waren sich zu 90% sicher, dass Ihre Schlussfolgerung zutreffen würde. 26% ist der minimale FDR, da es keine vernünftige Grundlage für eine Schlussfolgerung ist, eine vorherige Wahrscheinlichkeit von mehr als 0,5 anzunehmen.

Angesichts der Tatsache, dass Ahnungen beim Testen häufig nicht aufstehen, kann es gut sein, dass die Wahrscheinlichkeit, dass eine bestimmte Hypothese zutrifft, nur bei 10% liegt. In diesem Fall wäre der FDR ein katastrophales Ergebnis von 76%.

Es ist wahr, dass all dies von der Nullhypothese abhängt, dass es eine Nulldifferenz gibt (der sogenannte Nullpunkt). Andere Auswahlmöglichkeiten können zu anderen Ergebnissen führen. Aber der Punkt null ist das, was fast jeder im wirklichen Leben benutzt (obwohl der es vielleicht nicht merkt). Außerdem scheint mir der Punkt null völlig angebracht zu sein. Manchmal wird beanstandet, dass wahre Unterschiede niemals genau null sind. Ich stimme dir nicht zu. Wir möchten feststellen, ob unsere Ergebnisse nicht von dem Fall unterscheidbar sind, in dem beide Gruppen identische Behandlungen erhalten, sodass der wahre Unterschied genau Null ist. Wenn wir feststellen, dass unsere Daten nicht mit dieser Ansicht kompatibel sind, schätzen wir die Effektgröße. und an diesem Punkt machen wir eine separate Beurteilung, ob der Effekt, obwohl er real ist, groß genug ist, um in der Praxis wichtig zu sein.Deborah Mayos Blog .

@amoeba Danke für deine Antwort.

Die Diskussion auf Mayos Blog zeigt hauptsächlich, dass Mayo mir nicht zustimmt, obwohl sie mir zumindest nicht klar gemacht hat, warum. Stephen Senn weist richtig darauf hin, dass Sie eine andere Antwort erhalten können, wenn Sie eine andere vorherige Verteilung postulieren. Das scheint mir nur für subjektive Bayesianer interessant zu sein.

Es ist sicherlich irrelevant für die tägliche Praxis, die immer einen Punkt null annimmt. Und wie ich bereits erklärte, scheint mir das eine absolut vernünftige Sache zu sein.

Viele professionelle Statistiker sind zu ähnlichen Ergebnissen gekommen wie ich. Versuchen Sie es mit Sellke & Berger und Valen Johnson. Es gibt nichts sehr umstrittenes (oder sehr originelles) an meinen Behauptungen.

Ihr anderer Punkt, nämlich die Annahme eines 0.5-Prior, scheint mir überhaupt keine Annahme zu sein. Wie ich oben erklärt habe, ist alles über 0,5 in der Praxis inakzeptabel. Und alles unter 0,5 erhöht die Rate falscher Entdeckungen noch mehr (z. B. 76%, wenn vor 0,1). Daher ist es durchaus sinnvoll zu sagen, dass 26% die minimale Rate für falsche Entdeckungen ist, die Sie erwarten können, wenn Sie in einem einzelnen Experiment P = 0,047 beobachten.

Ich habe mehr über diese Frage nachgedacht. Meine Definition von FDR ist die gleiche wie die von Benjamini - der Bruchteil der positiven Tests, die falsch sind. Aber es wird auf ein ganz anderes Problem angewendet, die Interpretation eines einzelnen Tests. Im Nachhinein wäre es vielleicht besser gewesen, wenn ich einen anderen Begriff gewählt hätte.

Bei einem einzelnen Test lässt B & H den P-Wert unverändert und sagt daher nichts über die Rate falscher Entdeckungen in dem Sinne aus, wie ich den Begriff verwende.

Sie haben natürlich recht. Benjamini & Hochberg und andere Personen, die an mehreren Vergleichen arbeiten, versuchen nur, die Fehlerrate des Typs 1 zu korrigieren. Sie erhalten also einen "richtigen" P-Wert. Es ist den gleichen Problemen unterworfen wie jeder andere P-Wert. In meinem neuesten Artikel habe ich den Namen von FDR in False Positive Risk (FPR) geändert, um dieses Missverständnis zu vermeiden.

Wir haben auch eine Web-App geschrieben, um einige der Berechnungen durchzuführen (nachdem wir festgestellt haben, dass nur wenige Leute die von uns bereitgestellten R-Skripte herunterladen). Es befindet sich unter https://davidcolquhoun.shinyapps.io/3-calcs-final/. Alle Meinungen zu itare sind willkommen (bitte lesen Sie zuerst die Registerkarte Notizen).

PS Der Web-Rechner hat jetzt eine neue (ich hoffe, permanente) unter http://fpr-calc.ucl.ac.uk/ Shiny.io ist einfach zu bedienen, aber sehr teuer, wenn jemand die App tatsächlich nutzt :-(

Ich bin zu dieser Diskussion zurückgekehrt, nachdem mein zweiter Artikel zu diesem Thema in der Royal Society Open Science erscheinen wird. Es befindet sich unter https://www.biorxiv.org/content/early/2017/08/07/144337

Mir ist klar, dass der größte Fehler, den ich im ersten Artikel gemacht habe, darin bestand, den Begriff "False Discovery Rate (FDR)" zu verwenden. In der neuen Veröffentlichung mache ich deutlicher, dass ich nichts über das Problem der Mehrfachvergleiche sage. Ich beschäftige mich nur mit der Frage, wie der P-Wert zu interpretieren ist, der in einem einzigen neutralen Test beobachtet wird.

In der neuesten Version beziehe ich mich auf die Wahrscheinlichkeit, dass das Ergebnis als falsch positives Risiko (FPR) und nicht als FDR bezeichnet wird, in der Hoffnung, Verwirrung zu lindern. Ich befürworte auch den umgekehrten Bayes'schen Ansatz - geben Sie die vorherige Wahrscheinlichkeit an, die erforderlich wäre, um eine FPR von beispielsweise 5% sicherzustellen. Wenn Sie P = 0,05 beobachten, ergibt sich ein Wert von 0,87. Mit anderen Worten, Sie müssten fast (87%) sicher sein, dass es einen echten Effekt gab, bevor Sie das Experiment durchführen, um eine FPR von 5% zu erreichen (was die meisten Leute fälschlicherweise immer noch glauben, dass p = 0,05 bedeutet).

David Colquhoun
quelle

Lieber David, willkommen bei CrossValidated und vielen Dank für Ihre Teilnahme! Es scheint, dass wir uns über die ursprüngliche @ Januar-Frage einig sind: FDR kann nur durch ein allgemeines BH-Verfahren kontrolliert werden; Wenn BH in jedem Papier separat angewendet wird, gelten Ihre Argumente weiterhin. In diesem Fall ist die ursprüngliche Frage geklärt. In Bezug auf meinen Kommentar zu Ihren "zu starken" Formulierungen: Nachdem ich 147 Kommentare in Mayos Blog gelesen habe, zögere ich, eine weitere Diskussion zu beginnen. Wie ich schrieb, stimme ich Ihrem Artikel größtenteils zu und meine Einwände betrafen nur einige Formulierungen. [Forts.]

Amöbe sagt Reinstate Monica

[...] Der erste Satz in der Zusammenfassung ist genau aus den Gründen, die Sie hier aufgeführt haben, "zu stark": ZB nimmt er Punkt null und 0,5 vor, klingt aber so, als ob er nichts voraussetzt (aber ich verstehe, dass Sie versucht, provokativ zu sein). Eine große Diskussion auf Mayos Blog zeigt, dass viele Menschen nicht der Meinung sind, dass diese Annahmen für die tatsächliche wissenschaftliche Praxis angemessen sind. Ich habe auch meine eigenen Einwände, aber ich stimme Ihnen zu, dass diese Annahmen einige wissenschaftliche Bereiche genau beschreiben könnten . Und wenn ja, haben diese Felder ein großes Problem, ja.

Amöbe sagt Reinstate Monica

Ein großer Teil der Verwirrung ist, dass Colquhoun FDR trotz seiner gegenteiligen Äußerungen NICHT so definiert wie Benjamini-Hochberg. Es ist bedauerlich, dass Colquhoun versucht hat, einen Begriff zu prägen, ohne zuvor zu überprüfen, ob der Begriff noch keine festgelegte, andere Definition hatte. Um die Sache noch schlimmer zu machen, definierte Colquhoun FDR genau so, wie der konventionelle FDR oft falsch interpretiert wurde.

In seiner Antwort hier definiert Colquhoun FDR als "die Fraktion der positiven Tests, die falsch sind." Dies entspricht der Definition von Benjamini-Hochberg als FDP (Falschentdeckungsquote, nicht zu verwechseln mit der Falschentdeckungsquote). Benjamini-Hochberg definiert FDR als den ERWARTETEN WERT der FDP mit der speziellen Bedingung, dass die FDP als 0 gilt, wenn keine positiven Tests vorliegen (eine Bedingung, die dazu führt, dass die FDR gleich der FWER ist, wenn alle Nullen wahr sind, und vermeidet undefinierbare Werte durch Division durch Null).

Um Verwirrung zu vermeiden, schlage ich vor, dass Sie sich nicht um die Details im Colquhoun-Artikel kümmern, sondern sich nur den großen Überblick zu Herzen nehmen (was auch unzählige andere gemacht haben), dass das Alpha-Niveau nicht direkt dem Anteil der signifikanten Tests entspricht, die dies tun sind Fehler vom Typ I (ob es sich um die signifikanten Tests in einer einzelnen Studie oder in mehreren Studien zusammen handelt). Dieser Anteil hängt nicht nur vom Alpha ab, sondern auch von der Potenz und dem Anteil der getesteten Nullhypothesen, die wahr sind.

Bonferroni
quelle