Diese Frage wurde schon einmal hier und hier gestellt, aber ich glaube nicht, dass die Antworten die Frage direkt ansprechen.
Haben unzureichende Studien die Wahrscheinlichkeit von Fehlalarmen erhöht? Einige Nachrichtenartikel machen diese Behauptung. Zum Beispiel :
Geringe statistische Leistung ist eine schlechte Nachricht. In Studien mit unzureichender Leistung werden eher echte Effekte übersehen, und in einer Gruppe ist die Wahrscheinlichkeit höher, dass sie einen höheren Anteil an falsch-positiven Ergebnissen enthalten - das heißt, Effekte, die statistische Signifikanz erreichen, obwohl sie nicht real sind.
So wie ich es verstehe, kann die Leistung eines Tests erhöht werden durch:
- Erhöhen der Stichprobengröße
- mit einer größeren Effektgröße
- Erhöhen des Signifikanzniveaus
Angenommen, wir möchten das Signifikanzniveau nicht ändern, dann bezieht sich das obige Zitat meiner Meinung nach auf die Änderung der Stichprobengröße. Ich verstehe jedoch nicht, wie eine Verringerung der Stichprobe die Anzahl der falsch positiven Ergebnisse erhöhen sollte. Einfach ausgedrückt: Wenn Sie die Leistung einer Studie verringern, steigt die Wahrscheinlichkeit von falschen Negativen, was auf die folgende Frage antwortet:
Im Gegenteil, falsche Positive antworten auf die Frage:
Beides sind unterschiedliche Fragen, weil die Bedingungen unterschiedlich sind. Macht ist (umgekehrt) mit falschen Negativen verbunden, aber nicht mit falschen Positiven. Vermisse ich etwas?
quelle
Antworten:
Sie stimmen darin überein, dass die Stichprobengröße die Leistung beeinflusst (dh 1 - Typ - II - Fehler), jedoch nicht Typ - I - Fehler. Es ist ein weit verbreitetes Missverständnis, dass ein p-Wert als solcher (richtig interpretiert) weniger zuverlässig oder gültig ist, wenn die Stichprobengröße klein ist - der sehr unterhaltsame Artikel von Friston 2012 nimmt dies auf witzige Weise auf [1].
Abgesehen davon sind die Probleme mit unterbewerteten Studien real, und das Zitat ist weitgehend richtig, ich würde sagen, nur ein bisschen ungenau in seinem Wortlaut.
Das Grundproblem bei Studien mit unzureichender Leistung besteht darin, dass die Rate der wahrhaft positiven Ergebnisse (Potenz) sinkt, obwohl die Rate der falsch positiven Ergebnisse (Typ-I-Fehler) in Hypothesentests festgelegt ist. Daher ist es weniger wahrscheinlich, dass ein positives (= signifikantes) Ergebnis in einer Studie mit unzureichender Leistung wirklich positiv ist. Diese Idee drückt sich in der Rate falscher Entdeckungen aus [2], siehe auch [3]. Dies scheint, worauf sich das Zitat bezieht.
Ein weiteres häufig genanntes Problem bei Studien mit unzureichender Leistung ist, dass sie zu überschätzten Effektgrößen führen. Der Grund dafür ist, dass a) bei geringerer Leistung Ihre Schätzungen der wahren Effekte um ihren wahren Wert variabler (stochastischer) werden und b) nur der stärkste dieser Effekte den Signifikanzfilter passiert, wenn die Leistung niedrig ist. Man sollte jedoch hinzufügen, dass dies ein Berichterstattungsproblem ist, das leicht behoben werden kann, indem alle und nicht nur signifikante Auswirkungen besprochen und gemeldet werden.
Schließlich ist ein wichtiges praktisches Problem bei Studien mit unzureichender Leistung, dass geringe Leistung statistische Probleme (z. B. Verzerrung von Schätzern) sowie die Versuchung erhöht, mit Variablen und ähnlichen P-Hacking-Taktiken herumzuspielen. Die Verwendung dieser "Freiheitsgrade für Forscher" ist am effektivsten, wenn die Leistung niedrig ist, und DIES kann den Fehler vom Typ I schließlich erhöhen, siehe z. B. [4].
Aus all diesen Gründen wäre ich in der Tat skeptisch gegenüber einer Studie mit unzureichender Leistung.
[1] Friston, K. (2012) Zehn ironische Regeln für nicht statistische Gutachter. NeuroImage, 61, 1300 & ndash; 1310.
[2] https://en.wikipedia.org/wiki/False_discovery_rate
[3] Knopf, KS; Ioannidis, JPA; Mokrysz, C .; Nosek, BA; Flint, J .; Robinson, ESJ & Munafo, MR (2013) Stromausfall: Warum eine kleine Stichprobe die Zuverlässigkeit der Neurowissenschaften untergräbt. Nat. Rev. Neurosci., 14, 365 & ndash; 376
[4] Simmons, JP; Nelson, LD & Simonsohn, U. (2011) Falsch-Positive Psychologie: Unbekannte Flexibilität bei der Datenerfassung und -analyse ermöglicht es, alles als signifikant darzustellen. Psychol Sci., 22, 1359 & ndash; 1366.
quelle
Je nachdem , wie man es betrachtet, geringer Stromverbrauch kann in bestimmten Szenarien falsch positive Raten erhöhen.
Beachten Sie Folgendes: Ein Forscher testet eine Behandlung. Wenn der Test unwesentlich ausfällt, wird er abgebrochen und die nächste Behandlung durchgeführt. Wenn der Test signifikant zurückkommt, veröffentlichen sie ihn. Denken wir auch daran, dass der Forscher einige Behandlungen testet, die funktionieren, und andere, die nicht funktionieren. Wenn der Forscher über eine hohe Leistungsfähigkeit verfügt (dies bezieht sich natürlich auf den Fall, in dem er eine wirksame Behandlung testet), wird er mit hoher Wahrscheinlichkeit aufhören, sobald er eine wirksame Behandlung testet. Auf der anderen Seite versäumen sie bei geringer Leistung wahrscheinlich den eigentlichen Behandlungseffekt und gehen zu anderen Behandlungen über. Je mehr Null-Behandlungen sie testen, desto wahrscheinlicher ist es, dass sie einen Typ-I-Fehler machen (dieser Forscher berücksichtigt keine Mehrfachvergleiche). Im Falle von geringer Leistung wird erwartet, dass sie viel mehr Nullbehandlungen testen,
Sie könnten sagen "Nun, das ist nur ein Forscher, der mehrere Vergleiche missbraucht!". Nun, das mag stimmen, aber so wird heutzutage auch viel geforscht. Aus genau diesen Gründen habe ich persönlich wenig Vertrauen in veröffentlichte Arbeiten, es sei denn, sie sind so groß, dass es sich der Forscher nicht leisten konnte, dasselbe Experiment mehrmals zu wiederholen.
quelle
For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null
)Geringer Stromverbrauch kann die Typ-1-Fehlerrate nicht beeinflussen, kann jedoch den Anteil der veröffentlichten Ergebnisse beeinflussen, bei denen es sich um Typ-1-Fehler handelt.
Der Grund ist, dass eine geringe Leistung die Wahrscheinlichkeit einer korrekten Zurückweisung von H0 (Typ-2-Fehler) verringert, jedoch nicht die Wahrscheinlichkeit einer falschen Zurückweisung von H0 (Typ-1-Fehler).
Nehmen Sie für eine Sekunde an, dass es zwei Literaturen gibt ... eine mit sehr geringer Leistung - nahe Null - und die andere mit ausreichender Leistung. In beiden Literaturstellen können Sie davon ausgehen, dass wenn H0 falsch ist, Sie manchmal immer noch falsch-positive Ergebnisse erhalten (z. B. 5% für alpha = .05). Angenommen, die Forscher sind in ihren Hypothesen nicht immer richtig, dann können wir davon ausgehen, dass beide Literaturen eine ähnliche ANZAHL von Typ-1-Fehlern aufweisen sollten, ob sie eine gute Aussagekraft haben oder nicht. Dies liegt daran, dass die Rate der Typ-1-Fehler nicht durch die Leistung beeinflusst wird, wie andere bereits gesagt haben.
In der Literatur mit NIEDRIGER Leistung würden Sie jedoch auch viele Typ-2-Fehler haben. Mit anderen Worten, die Literatur mit niedriger Leistung sollte die Zurückweisung von H0 NICHT korrigieren, wodurch die Typ-1-Fehler einen größeren Anteil der Literatur ausmachen. In der Hochleistungsliteratur sollten Sie eine Mischung aus korrekten und inkorrekten Ablehnungen von H0 haben.
Steigert also die geringe Leistung die Typ-1-Fehler? Nein. Es erschwert jedoch das Auffinden echter Effekte, sodass Typ-1-Fehler einen größeren Anteil der veröffentlichten Ergebnisse ausmachen.
quelle
Zusätzlich zu den anderen Antworten ist eine Studie normalerweise nicht ausreichend, wenn die Stichprobengröße klein ist. Es gibt viele Tests, die nur asymptotisch gültig und für kleine n zu optimistisch oder konservativ sind.
Andere Tests sind nur für kleine Stichprobengrößen gültig, wenn bestimmte Bedingungen erfüllt sind, werden jedoch bei großen Stichprobengrößen robuster (z. B. t-Test).
In beiden Fällen kann eine geringe Stichprobengröße und eine nicht erfüllte Annahme zu einer erhöhten Typ I-Fehlerrate führen. Diese beiden Situationen treten oft genug auf, so dass ich die eigentliche Antwort auf Ihre Frage für richtig halte: Nicht theoretisch, sondern praktisch.
quelle