Dieser Artikel " The Odds, Continually Updated" von der NY Times erregte meine Aufmerksamkeit. Um es kurz zu machen, heißt es dort
[Bayesian Statistics] erweist sich als besonders nützlich bei der Bewältigung komplexer Probleme, einschließlich der Suche nach dem vermissten Fischer John Aldridge, wie sie die Küstenwache 2013 durchgeführt hat (allerdings noch nicht bei der Suche nach Malaysia Airlines Flight 370). ......, Bayesianische Statistiken durchziehen alles von Physik über Krebsforschung, Ökologie bis hin zu Psychologie ...
In dem Artikel wird auch der p-Wert des Frequentisten kritisiert, zum Beispiel:
Ergebnisse werden in der Regel als „statistisch signifikant“ betrachtet, wenn der p-Wert weniger als 5 Prozent beträgt. Aber diese Tradition birgt eine Gefahr, sagte Andrew Gelman, Statistikprofessor an der Columbia. Auch wenn Wissenschaftler die Berechnungen immer korrekt durchgeführt haben - und das tun sie auch nicht -, bedeutet die Annahme eines p-Werts von 5 Prozent, dass eines von 20 „statistisch signifikanten“ Ergebnissen nichts anderes als zufälliges Rauschen ist.
Abgesehen davon ist das vielleicht berühmteste Papier, das den p-Wert kritisiert, dieses: "Wissenschaftliche Methode: Statistische Fehler" von Regina Nuzzo aus Nature , in dem viele wissenschaftliche Fragen, die durch den p-Wert-Ansatz aufgeworfen wurden, wie etwa Fragen der Reproduzierbarkeit, erörtert wurden. p-Wert-Hacking usw.
P-Werte, der "Goldstandard" der statistischen Validität, sind nicht so zuverlässig, wie viele Wissenschaftler annehmen. ...... Der vielleicht schlimmste Irrtum ist die Art der Selbsttäuschung, für die der Psychologe Uri Simonsohn von der University of Pennsylvania und seine Kollegen den Begriff P-Hacking populär gemacht haben. Es ist auch bekannt als Daten-Ausbaggern, Schnüffeln, Fischen, Signifikanz-Jagen und Doppeltauchen. "P-Hacking", sagt Simonsohn, "versucht mehrere Dinge, bis Sie das gewünschte Ergebnis erzielen" - auch unbewusst. ...... "Dieser Befund scheint durch P-Hacking erhalten worden zu sein. Die Autoren haben eine der Bedingungen fallen gelassen, sodass der Gesamt-P-Wert unter 0,05 liegt." Und "Sie ist eine P-Hackerin." Sie überwacht immer Daten, während sie gesammelt werden. “
Eine andere Sache ist eine interessante Handlung wie aus folgenden hier mit der Bemerkung über die Handlung:
Egal wie klein Ihr Effekt auch sein mag, Sie können immer die harte Arbeit des Sammelns von Daten leisten, um die Schwelle von p <0,05 zu überschreiten. Solange der Effekt, den Sie untersuchen, nicht existiert, messen p-Werte nur, wie viel Aufwand Sie in die Datenerfassung gesteckt haben.
Bei alledem sind meine Fragen:
Was bedeutet Andrew Gelmans Argument im zweiten Blockzitat genau? Warum interpretierte er den 5-Prozent-p-Wert als "eins von 20 statistisch signifikanten Ergebnissen ist nichts anderes als zufälliges Rauschen"? Ich bin nicht überzeugt, da der p-Wert für mich verwendet wird, um Rückschlüsse auf eine einzelne Studie zu ziehen. Sein Punkt scheint mit mehreren Tests zu tun zu haben.
Update: Überprüfen Sie Andrew Gelmans Blog darüber: Nein, das habe ich nicht gesagt! (Dank an @Scortchi, @whuber).
- Gibt es gute praktische Hinweise zur Verwendung des p-Werts für statistische Analysen, die zu zuverlässigeren Forschungsergebnissen führen könnten?
Wäre das Bayes'sche Modellierungsgerüst ein besserer Weg, als es einige Statistiker befürworten? Wäre es insbesondere wahrscheinlicher, dass der Bayes'sche Ansatz das falsche Auffinden oder Manipulieren der Datenprobleme behebt? Ich bin auch hier nicht überzeugt, da der Prior im Bayes'schen Ansatz sehr subjektiv ist. Gibt es praktische und bekannte Studien, die zeigen, dass der Bayes'sche Ansatz besser ist als der p-Wert des Frequentisten, oder zumindest in bestimmten Fällen?
Update: Mich würde besonders interessieren, ob es Fälle gibt, in denen der Bayes'sche Ansatz zuverlässiger ist als der p-Wert-Ansatz des Frequentisten. Mit "zuverlässig" meine ich, dass der Bayes'sche Ansatz weniger wahrscheinlich ist, Daten für gewünschte Ergebnisse zu manipulieren. Irgendwelche Vorschläge?
Update 09.06.2015
Ich habe gerade die Neuigkeiten bemerkt und dachte, es wäre gut, sie hier zur Diskussion zu stellen.
Psychologie-Journal verbietet P-Werte
Ein umstrittener statistischer Test hat endlich sein Ende gefunden, zumindest in einer Zeitschrift. Anfang des Monats gaben die Herausgeber von BASP (Basic and Applied Social Psychology) bekannt, dass die Zeitschrift keine Artikel mit P-Werten mehr veröffentlichen werde, da die Statistiken zu häufig zur Unterstützung von Forschung von geringerer Qualität verwendet würden.
Zusammen mit einer kürzlich erschienenen Veröffentlichung über den P-Wert "Der unbeständige P-Wert erzeugt irreproduzierbare Ergebnisse" aus der Natur .
Update 08.05.2016
Bereits im März veröffentlichte die American Statistical Association (ASA) Aussagen zur statistischen Signifikanz und zu p-Werten: "... Die ASA-Aussage soll die Forschung auf eine Ära nach p <0,05 lenken."
Diese Aussage enthält 6 Prinzipien, die sich mit dem Missbrauch des p-Werts befassen:
- P-Werte können angeben, wie inkompatibel die Daten mit einem bestimmten statistischen Modell sind.
- P-Werte messen nicht die Wahrscheinlichkeit, dass die untersuchte Hypothese wahr ist, oder die Wahrscheinlichkeit, dass die Daten nur zufällig erzeugt wurden.
- Wissenschaftliche Schlussfolgerungen und geschäftliche oder politische Entscheidungen sollten nicht nur darauf beruhen, ob ein p-Wert einen bestimmten Schwellenwert überschreitet.
- Der richtige Rückschluss erfordert eine vollständige Berichterstattung und Transparenz.
- Ein p-Wert oder eine statistische Signifikanz misst nicht die Größe eines Effekts oder die Wichtigkeit eines Ergebnisses.
- Ein p-Wert allein liefert kein gutes Maß für die Evidenz in Bezug auf ein Modell oder eine Hypothese.
Details: "Die Erklärung der ASA zu p-Werten: Kontext, Prozess und Zweck" .
quelle
Antworten:
Hier sind einige Gedanken:
quelle
Für mich ist eines der interessantesten Dinge an der Kontroverse um das P-Hacking, dass die gesamte Geschichte von p <= 0,05 als "einmal im blauen Mond" -Standard für statistische Signifikanz gilt, wie Joseph Kaldane in einem JASA-Artikel zur forensischen Statistik feststellte in den 90er Jahren beruht auf absolut keiner statistischen Theorie. Es ist eine Konvention, eine einfache Heuristik und eine Faustregel, die mit RA Fisher begann und seitdem in ihren gegenwärtigen "unbestrittenen" Status umgewandelt oder geweiht wurde. Bayesianisch oder nicht, die Zeit ist längst überfällig, um diesen metrischen Standard in Frage zu stellen oder ihm zumindest die Skepsis zu geben, die er verdient.
Meine Interpretation von Gelmans Standpunkt ist jedoch, dass das Peer-Review-Verfahren bekanntermaßen eine positive statistische Signifikanz belohnt und unbedeutende Ergebnisse bestraft, indem diese Artikel nicht veröffentlicht werden. Dies gilt unabhängig davon, ob die Veröffentlichung eines unbedeutenden Befundes einen potenziell großen Einfluss auf das Denken und Theoretisieren für einen bestimmten Bereich haben würde oder nicht. Gelman, Simonshohn und andere haben wiederholt auf den Missbrauch des Signifikanzniveaus von 0,05 in von Experten geprüften und veröffentlichten Forschungsergebnissen hingewiesen, indem sie Beispiele für lächerliche, aber statistisch signifikante Ergebnisse in der paranormalen, sozialen und psychologischen Forschung angeführt haben. Eine der ungeheuerlichsten war die statistisch signifikante Feststellung, dass schwangere Frauen häufiger rote Kleider tragen. Gelman behauptet, dass, da keine logischen Herausforderungen für die statistischen Ergebnisse bestehen,möglicherweise bedeutungslose Erklärung. Hier bezieht er sich auf die Berufsgefahr der Branche mit übermäßig technischen und abstrusen Argumenten, die wenig oder nichts dazu beitragen, eine Debatte unter einem Laienpublikum voranzutreiben.
Dies ist ein Punkt, den Gary King vehement hervorhebt, wenn er praktisch quantitative Politikwissenschaftler (und im weiteren Sinne alle Quants) auffordert, die mechanistisch-technische Berichterstattung zu unterbinden, wie "dieses Ergebnis war auf einem Niveau von ungefähr 0,05 signifikant", und sich zu substanzielleren Interpretationen zu bewegen . Hier ist ein Zitat aus einem Papier von ihm,
King's Point ist sehr gut aufgenommen und zeigt auf, in welche Richtung die Debatte gehen muss.
Optimale Nutzung statistischer Analysen: Verbesserte Interpretation und Darstellung , King, Tomz und Wittenberg, 2002, Am Jour of Poli Sci .
quelle
Hier sind einige meiner Gedanken zu Frage 3, nachdem ich alle aufschlussreichen Kommentare und Antworten gelesen habe.
Möglicherweise besteht eine praktische Anleitung zur statistischen Analyse zur Vermeidung von p-Wert-Hacking darin, stattdessen die wissenschaftlich (oder biologisch, klinisch usw.) signifikante / bedeutsame Effektgröße zu untersuchen.
Um zu vermeiden, dass zu große Stichproben verwendet werden, um den Effekt zu erkennen, sollte auch die erforderliche Stichprobengröße berücksichtigt werden. Das heißt, wir sollten die maximale Stichprobengröße, die für das Experiment verwendet wird, einschränken.
Um zusammenzufassen,
Mit dem oben Gesagten können wir möglicherweise einen geringfügigen "signifikanten" Effekt vermeiden, der durch eine große Stichprobengröße hervorgerufen wird.
[Update 09.06.2015]
In Bezug auf Frage 3 gibt es einige Vorschläge, die auf dem kürzlich erschienenen Artikel aus der Natur basieren : "Der unbeständige P-Wert führt zu nicht reproduzierbaren Ergebnissen", wie ich im Fragenteil erwähnt habe.
[Ende Update 09.06.2015]
quelle
Dies impliziert, dass 1/20 Ergebnisse die Null zurückweisen können, wenn dies nicht der Fall sein sollte. Wenn die Schlussfolgerung der Wissenschaft auf einzelnen Experimenten beruht, wäre die Aussage vertretbar. Andernfalls würde bei wiederholbaren Experimenten impliziert, dass 19/20 nicht abgelehnt wird. Die Moral der Geschichte ist, dass Experimente wiederholbar sein sollten.
Wissenschaft ist eine Tradition, die auf "Objektivität" beruht, so dass "objektive Wahrscheinlichkeit" natürlich anspricht. Erinnern Sie sich daran, dass Experimente einen hohen Grad an Kontrolle demonstrieren sollen, wobei häufig Blockdesign und Randomisierung zur Kontrolle von Faktoren außerhalb der Studie eingesetzt werden. Daher ist der Vergleich mit dem Zufallsprinzip sinnvoll, da alle anderen Faktoren mit Ausnahme der untersuchten Faktoren kontrolliert werden sollen. Diese Techniken waren in der Landwirtschaft und in der Industrie sehr erfolgreich, bevor sie auf die Wissenschaft übertragen wurden.
Ich bin mir nicht sicher, ob ein Mangel an Informationen jemals wirklich das Problem war. Es ist bemerkenswert, dass für viele in den nicht-mathematischen Wissenschaften die Statistik nur ein Kästchen ist, das anzukreuzen ist.
Ich würde eine allgemeine Lektüre über Entscheidungstheorie vorschlagen, die die beiden Rahmenwerke vereint. Es kommt einfach darauf an, so viele Informationen wie möglich zu verwenden. Häufigkeitsstatistiken gehen davon aus, dass Parameter in Modellen unbekannte Werte aus festen Verteilungen haben. Bayesianer nehmen an, dass Parameter in Modellen von Verteilungen stammen, die durch das bedingt sind, was wir wissen. Wenn es genug Informationen gibt, um eine Vorgängerversion zu bilden, und genug Informationen, um sie auf einen genauen Nachfolger zu aktualisieren, ist das großartig. Wenn dies nicht der Fall ist, erhalten Sie möglicherweise schlechtere Ergebnisse.
quelle
Reproduzierbarkeit statistischer Testergebnisse
Dies ist eine kurze, einfache Übung zur Beurteilung der Reproduzierbarkeit von Entscheidungen auf der Grundlage statistischer Tests.
Betrachten Sie eine Nullhypothese H0 mit einer Reihe alternativer Hypothesen, die H1 und H2 enthalten. Richten Sie das Testverfahren für statistische Hypothesen auf ein Signifikanzniveau von 0,05 ein, um eine Potenz von 0,8 zu erhalten, wenn H1 wahr ist. Nehmen wir weiterhin an, dass die Leistung für H2 0,5 beträgt. Um die Reproduzierbarkeit des Testergebnisses zu beurteilen, wird das Experiment zweimal ausgeführt. Ausgehend von der Situation, in der H0 wahr ist, sind die Wahrscheinlichkeiten für die Ergebnisse des gemeinsamen Experiments in Tabelle 1 aufgeführt. Die Wahrscheinlichkeit, Entscheidungen nicht reproduzieren zu können, beträgt 0,095.
Tabelle 1. Häufigkeiten, wenn H0 wahr istDie Frequenzen ändern sich, wenn sich der wahre Naturzustand ändert. Unter der Annahme, dass H1 wahr ist, kann H0 mit einer Potenz von 0,8 abgelehnt werden. Die resultierenden Häufigkeiten für die verschiedenen Ergebnisse des gemeinsamen Experiments sind in Tabelle 2 dargestellt. Die Wahrscheinlichkeit, Entscheidungen nicht reproduzieren zu können, beträgt 0,32.
Tabelle 2. Häufigkeiten, wenn H1 wahr istAngenommen, H2 ist wahr, wird H0 mit einer Wahrscheinlichkeit von 0,5 verworfen. Die resultierenden Häufigkeiten für die unterschiedlichen Ergebnisse des gemeinsamen Experiments sind in Tabelle 3 dargestellt. Die Wahrscheinlichkeit, Entscheidungen nicht reproduzieren zu können, beträgt 0,5.
Tabelle 3. Häufigkeiten, wenn H2 wahr istDas Testverfahren wurde entwickelt, um Fehler vom Typ I (die Zurückweisung der Nullhypothese, obwohl sie wahr ist) mit einer Wahrscheinlichkeit von 0,05 zu kontrollieren und Fehler vom Typ II zu begrenzen (keine Zurückweisung der Nullhypothese, obwohl sie falsch ist und H1 wahr ist) bis 0,2. In beiden Fällen, in denen entweder H0 oder H1 als wahr angenommen wird, führt dies zu nicht vernachlässigbaren Häufigkeiten von 0,095 bzw. 0,32 von "nicht reproduzierbaren", "widersprüchlichen" Entscheidungen, wenn dasselbe Experiment zweimal wiederholt wird. Bei "nicht reproduzierbaren", "widersprüchlichen" Entscheidungen verschlechtert sich die Situation mit einer Häufigkeit von bis zu 0,5, wenn der wahre Naturzustand zwischen der Null- und der Alternativhypothese liegt, die für die Versuchsplanung herangezogen wurden.
Die Situation kann sich auch verbessern - wenn Fehler vom Typ 1 strenger kontrolliert werden oder wenn der wahre Naturzustand weit von der Null entfernt ist, was dazu führt, dass die Null, die nahe bei 1 liegt, abgelehnt werden kann.
Wenn Sie also reproduzierbarere Entscheidungen treffen möchten, erhöhen Sie das Signifikanzniveau und die Aussagekraft Ihrer Tests. Nicht sehr erstaunlich ...
quelle