Haben unzureichende Studien die Wahrscheinlichkeit von Fehlalarmen erhöht?

23

Diese Frage wurde schon einmal hier und hier gestellt, aber ich glaube nicht, dass die Antworten die Frage direkt ansprechen.

Haben unzureichende Studien die Wahrscheinlichkeit von Fehlalarmen erhöht? Einige Nachrichtenartikel machen diese Behauptung. Zum Beispiel :

Geringe statistische Leistung ist eine schlechte Nachricht. In Studien mit unzureichender Leistung werden eher echte Effekte übersehen, und in einer Gruppe ist die Wahrscheinlichkeit höher, dass sie einen höheren Anteil an falsch-positiven Ergebnissen enthalten - das heißt, Effekte, die statistische Signifikanz erreichen, obwohl sie nicht real sind.

So wie ich es verstehe, kann die Leistung eines Tests erhöht werden durch:

Erhöhen der Stichprobengröße
mit einer größeren Effektgröße
Erhöhen des Signifikanzniveaus

Angenommen, wir möchten das Signifikanzniveau nicht ändern, dann bezieht sich das obige Zitat meiner Meinung nach auf die Änderung der Stichprobengröße. Ich verstehe jedoch nicht, wie eine Verringerung der Stichprobe die Anzahl der falsch positiven Ergebnisse erhöhen sollte. Einfach ausgedrückt: Wenn Sie die Leistung einer Studie verringern, steigt die Wahrscheinlichkeit von falschen Negativen, was auf die folgende Frage antwortet:

P (Nicht ablehnen H_{0} | H_{0} ist falsch)

$P(\text{failure to reject }H_{0}|H_{0}\text{ is false})$

Im Gegenteil, falsche Positive antworten auf die Frage:

P (ablehnen H_{0} | H_{0} ist wahr)

$P(\text{reject }H_{0}|H_{0}\text{ is true})$

Beides sind unterschiedliche Fragen, weil die Bedingungen unterschiedlich sind. Macht ist (umgekehrt) mit falschen Negativen verbunden, aber nicht mit falschen Positiven. Vermisse ich etwas?

hypothesis-testing power false-discovery-rate Robert Smith
quelle

4

Es ist nicht die falsch-positive Rate, die von der statistischen Aussagekraft abhängt, sondern die "falsche Entdeckungsrate":

P (H_{0} is true | reject H_{0})

$P(H_0 \text{is true}| \text{reject} H_0)$

Jake Westfall

2

Ja, das scheint die richtige Interpretation der Aussage im Wired-Artikel zu sein.

Robert Smith

30

Sie stimmen darin überein, dass die Stichprobengröße die Leistung beeinflusst (dh 1 - Typ - II - Fehler), jedoch nicht Typ - I - Fehler. Es ist ein weit verbreitetes Missverständnis, dass ein p-Wert als solcher (richtig interpretiert) weniger zuverlässig oder gültig ist, wenn die Stichprobengröße klein ist - der sehr unterhaltsame Artikel von Friston 2012 nimmt dies auf witzige Weise auf [1].

Abgesehen davon sind die Probleme mit unterbewerteten Studien real, und das Zitat ist weitgehend richtig, ich würde sagen, nur ein bisschen ungenau in seinem Wortlaut.

Das Grundproblem bei Studien mit unzureichender Leistung besteht darin, dass die Rate der wahrhaft positiven Ergebnisse (Potenz) sinkt, obwohl die Rate der falsch positiven Ergebnisse (Typ-I-Fehler) in Hypothesentests festgelegt ist. Daher ist es weniger wahrscheinlich, dass ein positives (= signifikantes) Ergebnis in einer Studie mit unzureichender Leistung wirklich positiv ist. Diese Idee drückt sich in der Rate falscher Entdeckungen aus [2], siehe auch [3]. Dies scheint, worauf sich das Zitat bezieht.

Ein weiteres häufig genanntes Problem bei Studien mit unzureichender Leistung ist, dass sie zu überschätzten Effektgrößen führen. Der Grund dafür ist, dass a) bei geringerer Leistung Ihre Schätzungen der wahren Effekte um ihren wahren Wert variabler (stochastischer) werden und b) nur der stärkste dieser Effekte den Signifikanzfilter passiert, wenn die Leistung niedrig ist. Man sollte jedoch hinzufügen, dass dies ein Berichterstattungsproblem ist, das leicht behoben werden kann, indem alle und nicht nur signifikante Auswirkungen besprochen und gemeldet werden.

Schließlich ist ein wichtiges praktisches Problem bei Studien mit unzureichender Leistung, dass geringe Leistung statistische Probleme (z. B. Verzerrung von Schätzern) sowie die Versuchung erhöht, mit Variablen und ähnlichen P-Hacking-Taktiken herumzuspielen. Die Verwendung dieser "Freiheitsgrade für Forscher" ist am effektivsten, wenn die Leistung niedrig ist, und DIES kann den Fehler vom Typ I schließlich erhöhen, siehe z. B. [4].

Aus all diesen Gründen wäre ich in der Tat skeptisch gegenüber einer Studie mit unzureichender Leistung.

[1] Friston, K. (2012) Zehn ironische Regeln für nicht statistische Gutachter. NeuroImage, 61, 1300 & ndash; 1310.

[2] https://en.wikipedia.org/wiki/False_discovery_rate

[3] Knopf, KS; Ioannidis, JPA; Mokrysz, C .; Nosek, BA; Flint, J .; Robinson, ESJ & Munafo, MR (2013) Stromausfall: Warum eine kleine Stichprobe die Zuverlässigkeit der Neurowissenschaften untergräbt. Nat. Rev. Neurosci., 14, 365 & ndash; 376

[4] Simmons, JP; Nelson, LD & Simonsohn, U. (2011) Falsch-Positive Psychologie: Unbekannte Flexibilität bei der Datenerfassung und -analyse ermöglicht es, alles als signifikant darzustellen. Psychol Sci., 22, 1359 & ndash; 1366.

Florian Hartig
quelle

Vielen Dank. Hervorragende Referenzen. Der Vollständigkeit halber finden Sie [1] hier und [3] hier . Sind Sie sicher, dass dies das richtige Konzept ist, wenn Sie von einer falschen Erkennungsrate sprechen? Basierend auf [3] haben Sie vielleicht den positiven Vorhersagewert (PPV) gemeint, bei dem unterversorgte Studien einen niedrigeren PPV aufweisen (das heißt, echte Positive sind nicht so häufig wie sie in einer hochleistungsfähigen Studie auftreten sollten) die Ergänzung von PPV.

Robert Smith

So wie ich es verstehe, sind diese Konzepte identisch, PPV = 1-FDR. Ich bevorzuge die Verwendung von FDR, weil ich das Wort intuitiv besser verstehe.

Florian Hartig

Siehe auch hier en.wikipedia.org/wiki/Positive_und_negative_predictive_values

Florian Hartig

2

Tal Yarkoni weist darauf hin , all die Dinge , falsch über den Friston Artikel hier .

Jona

1

@jona - Ich denke, Tal Yarkoni bringt einige gute Punkte in seinem Blogbeitrag auf den Punkt. Ich denke, die 1-Satz-Zusammenfassung wäre "Low Power ist ein Problem", was genau das ist, was ich oben sage. Ich finde Fristons Karikatur von Reviewer-Kommentaren immer noch witzig, weil es vorkommt, dass Reviewer "die Stichprobengröße zu niedrig finden", ohne ein stichhaltiges Argument, bei dem es darum geht, die Potenz zu berechnen.

Florian Hartig

6

Je nachdem , wie man es betrachtet, geringer Stromverbrauch kann in bestimmten Szenarien falsch positive Raten erhöhen.

Beachten Sie Folgendes: Ein Forscher testet eine Behandlung. Wenn der Test unwesentlich ausfällt, wird er abgebrochen und die nächste Behandlung durchgeführt. Wenn der Test signifikant zurückkommt, veröffentlichen sie ihn. Denken wir auch daran, dass der Forscher einige Behandlungen testet, die funktionieren, und andere, die nicht funktionieren. Wenn der Forscher über eine hohe Leistungsfähigkeit verfügt (dies bezieht sich natürlich auf den Fall, in dem er eine wirksame Behandlung testet), wird er mit hoher Wahrscheinlichkeit aufhören, sobald er eine wirksame Behandlung testet. Auf der anderen Seite versäumen sie bei geringer Leistung wahrscheinlich den eigentlichen Behandlungseffekt und gehen zu anderen Behandlungen über. Je mehr Null-Behandlungen sie testen, desto wahrscheinlicher ist es, dass sie einen Typ-I-Fehler machen (dieser Forscher berücksichtigt keine Mehrfachvergleiche). Im Falle von geringer Leistung wird erwartet, dass sie viel mehr Nullbehandlungen testen,

Sie könnten sagen "Nun, das ist nur ein Forscher, der mehrere Vergleiche missbraucht!". Nun, das mag stimmen, aber so wird heutzutage auch viel geforscht. Aus genau diesen Gründen habe ich persönlich wenig Vertrauen in veröffentlichte Arbeiten, es sei denn, sie sind so groß, dass es sich der Forscher nicht leisten konnte, dasselbe Experiment mehrmals zu wiederholen.

Cliff AB
quelle

1

Vielen Dank. Selbst wenn Sie den Fall mehrerer Vergleiche (ohne angemessene Korrekturen) ignorieren, beschreiben Sie, wie hier beschrieben, eine weitere Instanz von PPV . Ich kann den Absatz nicht einfügen, aber er beginnt mit (

For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null

)

Robert Smith

1

Ah ja, das beschreibt sehr genau, worauf ich mich bezog. Der kleinste Unterschied besteht darin, dass ich sage: "In einem bestimmten experimentellen Verfahren erhöht sich die Wahrscheinlichkeit, in unserem gesamten experimentellen Verfahren einen Typ-I-Fehler zu machen , wenn bei jedem Test eine einzelne geringe Leistung eines echten Effekts vorliegt ." Dies ist natürlich anders als das Erhöhen der Typ I-Fehlerrate in jedem statistischen Test. Außerdem ist es nur im technischsten Sinne anders als PPV. Aber es ist die einzige Möglichkeit, wie die Aussage der Medien "Geringe Leistung erhöht Typ-I-Fehler" Sinn macht (und ich denke, es macht sehr viel Sinn).

Cliff AB

4

Geringer Stromverbrauch kann die Typ-1-Fehlerrate nicht beeinflussen, kann jedoch den Anteil der veröffentlichten Ergebnisse beeinflussen, bei denen es sich um Typ-1-Fehler handelt.

Der Grund ist, dass eine geringe Leistung die Wahrscheinlichkeit einer korrekten Zurückweisung von H0 (Typ-2-Fehler) verringert, jedoch nicht die Wahrscheinlichkeit einer falschen Zurückweisung von H0 (Typ-1-Fehler).

Nehmen Sie für eine Sekunde an, dass es zwei Literaturen gibt ... eine mit sehr geringer Leistung - nahe Null - und die andere mit ausreichender Leistung. In beiden Literaturstellen können Sie davon ausgehen, dass wenn H0 falsch ist, Sie manchmal immer noch falsch-positive Ergebnisse erhalten (z. B. 5% für alpha = .05). Angenommen, die Forscher sind in ihren Hypothesen nicht immer richtig, dann können wir davon ausgehen, dass beide Literaturen eine ähnliche ANZAHL von Typ-1-Fehlern aufweisen sollten, ob sie eine gute Aussagekraft haben oder nicht. Dies liegt daran, dass die Rate der Typ-1-Fehler nicht durch die Leistung beeinflusst wird, wie andere bereits gesagt haben.

In der Literatur mit NIEDRIGER Leistung würden Sie jedoch auch viele Typ-2-Fehler haben. Mit anderen Worten, die Literatur mit niedriger Leistung sollte die Zurückweisung von H0 NICHT korrigieren, wodurch die Typ-1-Fehler einen größeren Anteil der Literatur ausmachen. In der Hochleistungsliteratur sollten Sie eine Mischung aus korrekten und inkorrekten Ablehnungen von H0 haben.

Steigert also die geringe Leistung die Typ-1-Fehler? Nein. Es erschwert jedoch das Auffinden echter Effekte, sodass Typ-1-Fehler einen größeren Anteil der veröffentlichten Ergebnisse ausmachen.

Tom Carpenter
quelle

1

Vielen Dank. Was ist mit dem PPV? In dem von Florian Hartig zitierten Aufsatz wird behauptet, dass bei einem Fehler vom Typ I der PPV umso niedriger ist, je niedriger die Leistung ist. Wenn der PPV niedriger ist, was bedeutet, dass die Anzahl der wahrheitsgemäß behaupteten Entdeckungen niedriger ist, sollte die Anzahl der falsch behaupteten Entdeckungen (falsch positive) zunehmen.

Robert Smith

0

Zusätzlich zu den anderen Antworten ist eine Studie normalerweise nicht ausreichend, wenn die Stichprobengröße klein ist. Es gibt viele Tests, die nur asymptotisch gültig und für kleine n zu optimistisch oder konservativ sind.

Andere Tests sind nur für kleine Stichprobengrößen gültig, wenn bestimmte Bedingungen erfüllt sind, werden jedoch bei großen Stichprobengrößen robuster (z. B. t-Test).

In beiden Fällen kann eine geringe Stichprobengröße und eine nicht erfüllte Annahme zu einer erhöhten Typ I-Fehlerrate führen. Diese beiden Situationen treten oft genug auf, so dass ich die eigentliche Antwort auf Ihre Frage für richtig halte: Nicht theoretisch, sondern praktisch.

Erik
quelle

Haben unzureichende Studien die Wahrscheinlichkeit von Fehlalarmen erhöht?

Antworten: