Wir haben bereits mehrere Threads als p-Werte markiert , die viele Missverständnisse über sie aufdecken. Vor zehn Monaten hatten wir einen Thread über ein psychologisches Journal, das Werte "verbot" . Jetzt sagt die American Statistical Association (2016) , dass wir mit unserer Analyse "nicht mit der Berechnung eines Werts enden sollten ".
Die American Statistical Association (ASA) ist der Ansicht, dass die wissenschaftliche Gemeinschaft von einer formellen Erklärung profitieren könnte, in der mehrere allgemein vereinbarte Prinzipien erläutert werden, die der richtigen Verwendung und Interpretation des Werts zugrunde liegen.
Das Komitee listet andere Ansätze als mögliche Alternativen oder Ergänzungen zu Werten auf:
In Anbetracht der weit verbreiteten Missbräuche und Missverständnisse in Bezug auf Werte ziehen es einige Statistiker vor, Werte durch andere Ansätze zu ergänzen oder sogar zu ersetzen . Dazu gehören Methoden, bei denen die Schätzung gegenüber dem Testen im Vordergrund steht, z. B. das Vertrauen, die Glaubwürdigkeit oder die Vorhersageintervalle. Bayesianische Methoden; alternative Evidenzmaße wie Likelihood Ratios oder Bayes Factors; und andere Ansätze wie entscheidungstheoretische Modellierung und falsche Entdeckungsraten. Alle diese Maßnahmen und Ansätze beruhen auf weiteren Annahmen, sie können sich jedoch direkter auf die Größe eines Effekts (und die damit verbundene Unsicherheit) oder auf die Richtigkeit der Hypothese beziehen.p
Stellen wir uns also die Realität nach Werten vor. ASA listet einige Methoden auf, die anstelle von Werten verwendet werden können, aber warum sind sie besser? Welcher von ihnen kann ein Forscher ersetzen, der sein ganzes Leben lang Werte verwendet hat? Ich stelle mir vor, dass diese Art von Fragen in der Post- Wert-Realität auftauchen wird. Versuchen wir also, ihnen einen Schritt voraus zu sein. Was ist die vernünftige Alternative, die sofort angewendet werden kann? Warum sollte dieser Ansatz Ihren leitenden Forscher, Herausgeber oder Leser überzeugen?p p p
Wie dieser nachfolgende Blogeintrag nahe legt, sind Werte in ihrer Einfachheit unschlagbar:
Für den p-Wert ist nur ein statistisches Modell erforderlich, damit das Verhalten einer Statistik unter der Nullhypothese gilt. Selbst wenn ein Modell einer alternativen Hypothese zur Auswahl einer "guten" Statistik verwendet wird (die zur Konstruktion des p-Werts verwendet werden würde), muss dieses alternative Modell nicht korrekt sein, damit der p-Wert gültig und gültig ist nützlich (dh: Kontrollfehler Typ I auf dem gewünschten Niveau, während ein gewisses Maß an Leistung zur Erkennung eines echten Effekts angeboten wird). Im Gegensatz dazu benötigen andere (wunderbare und nützliche) statistische Methoden wie Likelihood-Verhältnisse, Effektgrößenschätzung, Konfidenzintervalle oder Bayes'sche Methoden die angenommenen Modelle, um einen größeren Bereich von Situationen abzudecken, nicht nur unter der getesteten Null.
Sind sie oder ist es vielleicht nicht wahr und wir können sie leicht ersetzen?
Ich weiß, das ist weit gefasst, aber die Hauptfrage ist einfach: Was ist die beste (und warum) echte Alternative zu Werten, die als Ersatz verwendet werden können?
ASA (2016). ASA-Stellungnahme zur statistischen Signifikanz und zu Werten. Der amerikanische Statistiker. (in der Presse)
Antworten:
Ich werde diese Antwort auf die spezifische Frage konzentrieren, was die Alternativen zu Werten sind.p
Es wurden 21 Diskussionspapiere zusammen mit der ASA-Erklärung (als Supplemental Materials) veröffentlicht: von Naomi Altman, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini, Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman, Steve Goodman, Sander Grönland, John Ioannidis, Joseph Horowitz, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman, Stephen Senn, Dalene Stangl, Philip Stark und Steve Ziliak (einige von ihnen schrieben zusammen Ich liste alles für zukünftige Suchen auf. Diese Personen decken wahrscheinlich alle vorhandenen Meinungen über Werte und statistische Inferenz ab.p
Ich habe alle 21 Papiere durchgesehen.
Leider diskutieren die meisten von ihnen keine wirklichen Alternativen, obwohl es in der Mehrzahl um Einschränkungen, Missverständnisse und verschiedene andere Probleme mit Werten geht (zur Verteidigung von p- Werten siehe Benjamini, Mayo und Senn). Dies legt bereits nahe, dass Alternativen, falls vorhanden, nicht leicht zu finden und / oder zu verteidigen sind.p p
Schauen wir uns also die Liste der "anderen Ansätze" an, die in der ASA-Anweisung selbst angegeben sind (wie in Ihrer Frage angegeben):
Vertrauensintervalle
Konfidenzintervalle sind ein häufig verwendetes Werkzeug, das mit Werten einhergeht. Es ist fast immer eine gute Idee, ein Konfidenzintervall (oder ein äquivalentes, z. B. Mittelwert ± Standardfehler des Mittelwerts) zusammen mit dem p- Wert anzugeben.p ± p
Einige Leute (nicht unter den ASA-Disputanten) schlagen vor, dass Konfidenzintervalle die p- Werte ersetzen sollten . Einer der ausgesprochensten Befürworter dieses Ansatzes ist Geoff Cumming, der es neue Statistiken nennt (ein Name, den ich entsetzlich finde). Siehe zB diesen Blog-Beitrag von Ulrich Schimmack für eine ausführliche Kritik: Eine kritische Überprüfung von Cummings (2014) neuer Statistik: Wiederverkauf alter Statistiken als neue Statistiken . Siehe auch Wir können es uns nicht leisten, die Effektgröße im Laborblog- Beitrag von Uri Simonsohn zu einem verwandten Thema zu untersuchen.p
Siehe auch diesen Thread (und meine Antwort darin) über den similiar Vorschlag von Norm Matloff wo ich argumentiere , dass , wenn CIs Berichterstattung man noch die haben möchte -Werten berichtete auch: Was ist ein gutes, überzeugendes Beispiel ist in der p-Werte sind nützlich?p
Einige andere Personen (auch nicht die ASA-Disputanten) argumentieren jedoch, dass Konfidenzintervalle als häufiges Instrument ebenso fehlgeleitet sind wie Werte und auch entsorgt werden sollten. Siehe z. B. Morey et al. 2015, Der Irrtum, Vertrauen in Vertrauensintervalle zu setzen, von @Tim hier in den Kommentaren verlinkt. Dies ist eine sehr alte Debatte.p
Bayesianische Methoden
(Mir gefällt nicht, wie die ASA-Anweisung die Liste formuliert. Glaubwürdige Intervalle und Bayes-Faktoren werden getrennt von "Bayes-Methoden" aufgeführt, aber es handelt sich offensichtlich um Bayes-Werkzeuge. Deshalb zähle ich sie hier zusammen.)
Es gibt eine riesige und sehr aufgeschlossene Literatur über die Debatte zwischen Bayesian und Frequentist. Siehe zum Beispiel diesen aktuellen Thread für einige Gedanken: Wann (wenn überhaupt) ist ein frequentistischer Ansatz wesentlich besser als ein bayesianischer? Eine Bayes'sche Analyse ist durchaus sinnvoll, wenn man gute informative Prioritäten hat und jeder nur gerne oder p ( H 0 : θ = 0 | Daten ) anstelle von p ( Daten mindestens so extrem | ) berechnen und angeben würde H 0 )p(θ|data) p(H0:θ=0|data) p(data at least as extreme|H0) - Aber leider haben die Leute normalerweise keine guten Vorgesetzten. Ein Experimentator registriert 20 Ratten, die unter einer Bedingung etwas tun, und 20 Ratten, die unter einer anderen Bedingung dasselbe tun. Die Vorhersage ist, dass die Leistung der ersteren Ratten die Leistung der letzteren Ratten übersteigen wird, aber niemand wäre bereit oder in der Lage, eine klare Aussage über die Leistungsunterschiede zu treffen. (Aber siehe @ FrankHarrells Antwort, in der er die Verwendung von "skeptischen Vorgesetzten" befürwortet.)
Die eingefleischten Bayesianer schlagen vor, Bayesianische Methoden anzuwenden, auch wenn man keine informativen Vorbilder hat. Ein aktuelles Beispiel ist Krushke, 2012, Bayes'sche Schätzung ersetzt den Testt , der demütig als BEST abgekürzt wird. Die Idee ist, ein Bayes'sches Modell mit schwachen, nicht informativen Priors zu verwenden, um den Posterior für den Effekt von Interesse zu berechnen (wie z. B. eine Gruppendifferenz). Der praktische Unterschied zum frequentistischen Denken scheint in der Regel gering zu sein, und meines Erachtens ist dieser Ansatz nach wie vor unpopulär. Siehe Was ist ein "nicht informativer Prior"? Können wir jemals eine haben, die wirklich keine Informationen hat? für die Erörterung dessen, was "uninformativ" ist (Antwort: Es gibt so etwas nicht, daher die Kontroverse).
Ein alternativer Ansatz, der auf Harold Jeffreys zurückgeht, basiert auf Bayes- Tests (im Gegensatz zu Bayes- Schätzungen ) und verwendet Bayes-Faktoren. Einer der beredten und produktivsten Befürworter ist Eric-Jan Wagenmakers, der veröffentlicht hat viel zu diesem Thema in der letzten Jahren. Zwei Merkmale dieses Ansatzes sind hier hervorzuheben. Siehe zunächst Wetzels et al., 2012, A Default Bayesian Hypothesis Test for ANOVA Designs, um zu veranschaulichen, wie stark das Ergebnis eines solchen Bayesian Tests von der spezifischen Wahl der alternativen Hypothese H 1 abhängen kannH1 und die von ihm gesetzte Parameterverteilung ("prior"). Zweitens, sobald ein "vernünftiger" Prior gewählt wurde (Wagenmakers wirbt für Jeffreys sogenannte "Standard" -Prioren), stellen sich die resultierenden Bayes-Faktoren oft als ziemlich konsistent mit den Standard- Werten heraus, siehe z. B. diese Zahl aus diesem Preprint von Marsman & Wagenmacher :p
Während Wagenmakers et al. hält darauf , dass -Werten zutiefst fehlerhaft sind und Bayes Faktoren sind der Weg zu gehen, kann man nicht , aber frag dich ... (Um fair zu sein, ist der Punkt von Wetzels et al. 2011 ist , dass für p - Werte der Nähe von 0,05 Bayes Faktoren nur deuten auf sehr schwache Beweise gegen die Null hin, aber beachten Sie, dass dies in einem häufig vorkommenden Paradigma einfach durch die Verwendung eines strengeren & agr ;p p 0.05 α
Eine der populäreren Veröffentlichungen von Wagenmakers et al. In der Verteidigung der Bayes-Faktoren heißt es 2011: Warum Psychologen die Art und Weise ändern müssen, in der sie ihre Daten analysieren: Der Fall von psi, in dem er argumentiert, dass das berüchtigte Bem-Papier zur Vorhersage der Zukunft nicht zu den falschen Schlussfolgerungen gekommen wäre, wenn sie stattdessen nur Bayes-Faktoren verwendet hätten von -Werten. In diesem nachdenklichen Blog-Beitrag von Ulrich Schimmack finden Sie ein ausführliches (und meiner Meinung nach überzeugendes) Gegenargument: Warum Psychologen die Art und Weise, wie sie ihre Daten analysieren, nicht ändern sollten: Der Teufel steht an voreingestellter Stelle .p
Siehe auch Der Bayesianische Standardtest ist ein Vorurteil gegen Small Effects- Blogbeitrag von Uri Simonsohn.
Der Vollständigkeit halberp erwähne ich, dass Wagenmakers 2007, eine praktische Lösung für die allgegenwärtigen Probleme der p- Werte, vorschlug, BIC als Annäherung an den Bayes-Faktor zu verwenden, um die Werte zu ersetzen . BIC hängt nicht vom Prior ab und ist daher trotz seines Namens nicht wirklich bayesianisch; Ich bin mir nicht sicher, was ich von diesem Vorschlag halten soll. Es scheint, dass Wagenmakers in jüngerer Zeit eher Bayes-Tests mit uninformativen Jeffreys-Priors befürwortet, siehe oben.p
Weitere Informationen zur Bayes-Schätzung im Vergleich zum Bayes-Test finden Sie unter Bayes-Parameterschätzung oder Testen der Bayes-Hypothese. und Links darin.
Minimum Bayes Faktoren
Unter den ASA-Disputanten wird dies ausdrücklich von Benjamin & Berger und Valen Johnson vorgeschlagen (die einzigen beiden Papiere, in denen es um konkrete Alternativen geht). Ihre spezifischen Vorschläge sind ein bisschen anders, aber sie ähneln sich im Geist.
Die Ideen von Berger gehen auf Berger & Sellke 1987 zurück und es gibt eine Reihe von Artikeln von Berger, Sellke und Mitarbeitern, die sich bis zum letzten Jahr mit dieser Arbeit befassen. Die Idee ist, dass unter einer Spitze und Platte vor dem Punkt Null Hypothese die Wahrscheinlichkeit 0,5 erhält und alle anderen Werte von μ die Wahrscheinlichkeit 0,5 symmetrisch um 0 ("lokale Alternative") verteilt werden, und dann das minimale hintere p ( H 0 ) über Alle lokalen Alternativen, dh der minimale Bayes-Faktor , ist viel höher als der pμ=0 0,5 μ 0,5 0 p (H0) p -Wert. Dies ist die Grundlage der (viel umstrittenen) Behauptung, dass Werte die Beweise gegen die Null "überbewerten". Der Vorschlag ist, anstelle des p- Werts eine Untergrenze für den Bayes-Faktor zu verwenden ; Unter einigen allgemeinen Annahmen ergibt sich diese Untergrenze zu - e p log ( p ) , dh der p- Wert wird effektiv mit - e log ( p ) multipliziert, was für den gemeinsamen Bereich ein Faktor von etwa 10 bis 20 ist von p -Werten. Dieser Ansatz wurde befürwortetp p - e plog( p ) p - e log( p ) 10 20 p von Steven Goodman auch.
Späteres Update: Sehen Sie sich einen schönen Cartoon an , der diese Ideen auf einfache Weise erklärt.
Noch spätere Aktualisierung: Siehe Held & Ott, 2018, On -Values and Bayes Factors (Über p- Werte und Bayes-Faktoren)p für eine umfassende Überprüfung und weitere Analyse der Umwandlung von Werten in minimale Bayes-Faktoren. Hier ist eine Tabelle von dort:p
Valen Johnson schlug etwas Ähnliches in seiner PNAS 2013-Veröffentlichung vor ; sein Vorschlag läuft darauf hinaus, Werte mit √ zu multiplizierenp was ungefähr5bis10 ist.- 4 πLog( p )---------√ 5 10
Eine kurze Kritik von Johnsons Artikel finden Sie in der Antwort von Andrew Gelman und @ Xi'an in PNAS. Zum Gegenargument zu Berger & Sellke 1987 siehe Casella & Berger 1987 (anders Berger!). Stephen Senn spricht sich in den APA-Diskussionspapieren ausdrücklich gegen einen dieser Ansätze aus:
Siehe auch Verweise in Senns Artikel, einschließlich der Verweise auf Mayos Blog.
Die ASA-Anweisung listet als weitere Alternative "Entscheidungstheoretische Modellierung und falsche Entdeckungsraten" auf. Ich habe keine Ahnung, wovon sie sprechen, und ich war froh zu sehen, dass dies in dem Diskussionspapier von Stark festgehalten wurde:
Ich bin sehr skeptisch, dass es irgendetwas gibt , das Werte in der tatsächlichen wissenschaftlichen Praxis ersetzen kann, sodass die Probleme, die häufig mit p- Werten verbunden sind (Replikationskrise, p- Hacking usw.) , verschwinden würden. Jede feste Entscheidungsverfahren, zB ein Bayesian ein, kann wahrscheinlich werden „gehackt“ in der gleichen Weise wie p - Werte können sein p -hacked (für einige Diskussion und Demonstration dieser sehen diese 2014 Blog - Post von Uri Simonsohn ).p p p p p
So zitieren Sie aus Andrew Gelmans Diskussionspapier:
Und von Stephen Senn:
Und so hat Cohen es in seinem bekannten und vielzitierten (3,5k-Zitate) 1994 erschienenen Aufsatz The Earth is round ( )p < 0,05 formuliert, in dem er sich sehr stark gegen Werte aussprach:p
quelle
Hier sind meine zwei Cent.
Ich denke, dass viele angewandte Wissenschaftler irgendwann den folgenden "Satz" formulierten:
und die meisten schlechten Praktiken kommen von hier.
Früher habe ich mit Leuten gearbeitet, die Statistiken verwendet haben, ohne sie wirklich zu verstehen, und hier sind einige der Dinge, die ich sehe:
All dies wird von versierten, ehrlichen Wissenschaftlern gemacht, die kein starkes Gefühl des Betrugs haben. Warum ? IMHO, wegen Satz 1.
Ein weiterer verwandter Fall ist, wenn Experten Folgendes möchten:
Die Erwähnung der alternativen Hypothese ist die einzige Lösung, um diesen Fall zu lösen.
Die Verwendung der posterioren Quoten, des Bayes-Faktors oder des Likelihood-Verhältnisses in Verbindung mit dem Vertrauen / den glaubwürdigen Intervallen scheint also die Hauptprobleme zu reduzieren.
Meine zwei Cent Schlussfolgerung
quelle
Mit Ausnahme der linearen Modelle nach Gauß und der Exponentialverteilung ist fast alles, was wir mit der frequentistischen Inferenz tun, ungefähr (ein gutes Beispiel ist das binäre logistische Modell, das Probleme verursacht, weil seine logarithmische Wahrscheinlichkeitsfunktion sehr unquadratisch ist). Mit der Bayes'schen Folgerung stimmt alles mit dem Simulationsfehler überein (und Sie können immer mehr Simulationen durchführen, um hintere Wahrscheinlichkeiten / glaubwürdige Intervalle zu erhalten).
Ich habe unter http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html eine detailliertere Darstellung meines Denkens und meiner Entwicklung verfasst
quelle
Scott Armstrong, ein brillanter Prognostiker aus Wharton, veröffentlichte vor fast 10 Jahren einen Artikel mit dem Titel Significance Tests Harm Progress in Forecasting in der internationalen Zeitschrift Forecasting einer von ihm mitbegründeten Zeitschrift. Auch wenn es sich um Prognosen handelt, können diese auf jede Datenanalyse oder Entscheidungsfindung verallgemeinert werden. In dem Artikel stellt er fest, dass:
Dies ist eine hervorragende Lektüre für alle, die sich für eine gegensätzliche Betrachtung von Signifikanztests und P-Werten interessieren.
Der Grund, warum mir dieser Artikel gefällt, ist, dass Armstrong Alternativen zu Signifikanztests bietet, die kurz und bündig sind und insbesondere für einen Nicht-Statistiker wie mich leicht verständlich sind. Dies ist meiner Meinung nach viel besser als der in der Frage zitierte ASA-Artikel:
Alles, was ich nach wie vor begrüße und seitdem nicht mehr mit Signifikanztests oder mit Blick auf P-Werte arbeite, außer wenn ich randomisierte experimentelle Studien oder Quasi-Experimente durchführe. Ich muss hinzufügen, dass randomisierte Experimente in der Praxis sehr selten sind, außer in der pharmazeutischen Industrie / den Biowissenschaften und in einigen Bereichen des Ingenieurwesens.
quelle
Wir brauchen ein Ende der entscheidungstheoretischen statistischen Inferenz. Wir sollten uns bemühen, über die Hypothese hinauszudenken. Die wachsende Kluft zwischen klinischem Nutzen und hypothesengetriebener Untersuchung beeinträchtigt die wissenschaftliche Integrität. Die "signifikante" Studie ist äußerst suggestiv, verspricht jedoch selten klinisch bedeutsame Ergebnisse.
Dies ist offensichtlich, wenn wir die Attribute der hypothesengetriebenen Folgerung untersuchen:
Die Alternative ist für mich ein metaanalytischer Ansatz, zumindest ein qualitativer. Alle Ergebnisse sollten sorgfältig auf andere "ähnliche" Ergebnisse und Unterschiede überprüft werden, die sehr sorgfältig beschrieben wurden, insbesondere Einschluss- / Ausschlusskriterien, Einheiten oder Skalen für Expositionen / Ergebnisse sowie Effektgrößen und Unsicherheitsintervalle (am besten zusammengefasst mit 95% -KI) ).
Wir müssen auch unabhängige Bestätigungsversuche durchführen. Viele Menschen sind von einer scheinbar bedeutsamen Studie betroffen, aber ohne Replikation können wir nicht darauf vertrauen, dass die Studie ethisch einwandfrei durchgeführt wurde. Viele haben wissenschaftliche Karrieren gemacht, indem sie Beweise gefälscht haben.
quelle
Zwei Referenzen aus der medizinischen Literatur sind (1) von Langman, MJS mit dem Titel Towards Estimation and Confidence Intervals, und von Gardner, MJ und Altman, DG mit dem Titel Confidence Intervals anstatt {P} Values: Estimation anstelle von Hypothesentests
quelle
Ich würde weiterhin p-Werte verwenden, aber einfach vertrauenswürdige / glaubwürdige Intervalle hinzufügen, und möglicherweise für die Vorhersageintervalle der primären Ergebnisse. Es gibt ein sehr schönes Buch von Douglas Altman (Statistik mit Zuversicht, Wiley), und dank Boostrap- und MCMC-Ansätzen können Sie immer einigermaßen robuste Intervalle erstellen.
quelle
Dies schließt auf jeden Fall ein normales Testen der Signifikanz von Hypothesen nicht aus, unterstreicht jedoch, dass statistisch signifikante Ergebnisse sehr frühe Zwischenschritte auf dem Weg zu echten Entdeckungen sind und wir erwarten sollten, dass Forscher viel mehr mit ihren Ergebnissen anfangen.
quelle