Ein Psychologiejournal verbot p-Werte und Konfidenzintervalle; ist es in der Tat ratsam, sie nicht mehr zu verwenden?

73

Am 25. Februar 2015 hat die Zeitschrift Basic and Applied Social Psychology einen Leitartikel herausgegeben , der Werte und Konfidenzintervalle aus allen zukünftigen Veröffentlichungen verbietet .p

Konkret heißt es (Formatierung und Hervorhebung gehören mir):

  • [...] vor der Veröffentlichung müssen die Autoren alle Überreste des NHSTP ( Werte, t- Werte, F- Werte, Aussagen über "signifikante" Unterschiede oder deren Fehlen) entfernen , und so weiter).ptF

  • Analog dazu, wie der NHSTP die Wahrscheinlichkeit der Nullhypothese nicht liefert, die erforderlich ist, um einen stichhaltigen Grund für deren Zurückweisung zu liefern, liefern Konfidenzintervalle keinen stichhaltigen Grund für die Schlussfolgerung, dass der interessierende Populationsparameter wahrscheinlich innerhalb der angegebenen liegt Intervall. Daher sind Konfidenzintervalle auch von BASP ausgeschlossen.

  • In Bezug auf Bayesianische Verfahren behalten wir uns das Recht vor, Einzelfallentscheidungen zu treffen, weshalb Bayesianische Verfahren in BASP weder erforderlich noch verboten sind.

  • [...] Sind statistische Inferenzverfahren erforderlich? - Nein, [...] BASP erfordert jedoch aussagekräftige Beschreibungsstatistiken, einschließlich Effektgrößen.

pp

p

Oder, wie @whuber es ausdrückte, sollte dieser Ansatz allgemein als Paradigma der quantitativen Forschung befürwortet werden? Und wenn nicht, warum nicht?

PS. Beachten Sie, dass es in meiner Frage nicht um das Verbot selbst geht . es geht um den vorgeschlagenen Ansatz. Ich frage auch nicht nach einer frequentistischen oder bayesianischen Folgerung. Das Editorial ist auch in Bezug auf Bayes'sche Methoden ziemlich negativ; Es geht also im Wesentlichen darum, Statistiken zu verwenden, anstatt überhaupt keine Statistiken zu verwenden.


Andere Diskussionen: reddit , Gelman .

Amöbe
quelle
14
In linearen Regressionsmodellen gibt es eine Eins-zu-Eins-Zuordnung zwischen p-Werten und Konfidenzintervallen. Daher sehe ich keinen eindeutigen Grund, warum ein Verbot von p-Werten, aber das Beibehalten von Konfidenzintervallen sinnvoll wäre. Das Sperren von p-Werten und Konfidenzintervallen lässt jedoch eine Lücke in der Beschreibung der Ergebnisse ... Ich frage mich, ob sie das Melden von Standardfehlern zulassen (das wäre ein weiteres Maß für dieselbe Eins-zu-Eins-Zuordnungsgruppe).
Richard Hardy
7
Alles könnte missbraucht werden, also ist es seltsam, Sachen unter dieser Bedingung zu verbieten. Ich bin kein Fan von p-Werten, aber dies scheint eine ziemlich naive Herangehensweise an das Problem zu sein. Eine Sache ist ermutigend, richtiges Zeug zu verwenden, aber das Verbieten von Dingen klingt nicht nach einem richtigen Weg, um mit dem Problem umzugehen ...
Tim
12
Großartige Idee. Durch die Verwendung von Statistiken wird lediglich die Unwissenschaftlichkeit dieses Bereichs ausgeblendet.
Aksakal
4
Dies scheint eine völlige Überreaktion auf die Frustration über den Missbrauch von p-Werten zu sein. Ich wäre viel glücklicher mit einem Verbot des Missbrauchs von p-Werten als von P-Werten im Allgemeinen.
TrynnaDoStat
8
Das vierte Element in Ihrer Liste weist darauf hin, dass keine Punktschätzungen erforderlich sind, die Rückschlüsse zulassen würden, sondern dass die Effektgrößen lediglich als beschreibende Statistiken angegeben werden. (Dennoch, ein paar Zeilen weiter unten im Leitartikel: "Wir empfehlen die Verwendung größerer Stichproben als in vielen psychologischen Forschungen üblich, da mit zunehmender Stichprobengröße deskriptive Statistiken immer stabiler werden und Stichprobenfehler weniger problematisch sind." Ich freue mich auf die Aufforderung der Redaktion aus dem Jahr 2016, diesen Begriff der Stabilität zu formalisieren und die Auswirkungen von Stichprobenfehlern quantitativ zu
berücksichtigen

Antworten:

23

Der erste Satz des aktuellen Leitartikels von 2015, auf den das OP verweist, lautet:

Das Editorial Basic and Applied Social Psychology (BASP) 2014 * betonte *, dass das Nullhypothesen-Signifikanztestverfahren (NHSTP) ungültig ist ...

(meine Betonung)

Mit anderen Worten, für die Herausgeber ist es eine bereits nachgewiesene wissenschaftliche Tatsache, dass das "Nullhypothesen-Signifikanz-Testen" ungültig ist, und das Editorial von 2014 hat dies nur betont, während das aktuelle Editorial von 2015 diese Tatsache nur implementiert.

Der (auch böswillige) Missbrauch von NHSTP wird in der Tat gut diskutiert und dokumentiert. Und es ist in der Geschichte der Menschheit nicht ungewöhnlich, dass "Dinge verboten werden", weil festgestellt wurde, dass sie letztendlich missbraucht und mehr als sinnvoll eingesetzt wurden (sollten wir das nicht statistisch testen?). Es kann eine "zweitbeste" Lösung sein, das zu reduzieren, was im Durchschnitt (Inferenzstatistik) zu Verlusten und nicht zu Gewinnen geführt hat, und wir sagen voraus (Inferenzstatistik), dass dies auch in Zukunft schädlich sein wird.

Aber der Eifer hinter dem Wortlaut des oben genannten ersten Satzes enthüllen, macht diese -Genau aussieht, als Eiferer Ansatz eher als eine besonnene Entscheidung , die Hand zu schneiden , die eher als Angebot zu stehlen neigt. Wenn man das im obigen Zitat erwähnte ein Jahr ältere Editorial (DOI: 10.1080 / 01973533.2014.865505) liest, wird man sehen, dass dies nur ein Teil einer Neuausrichtung der Richtlinien des Journals durch einen neuen Editor ist.

Sie scrollen durch das Editorial und schreiben

... Im Gegenteil, wir glauben, dass der p <.05-Balken zu leicht zu überschreiten ist und manchmal als Entschuldigung für Forschung von geringerer Qualität dient.

Ihre Schlussfolgerung in Bezug auf ihre Disziplin scheint also zu sein, dass Nullhypothesen "zu oft" zurückgewiesen werden und so angebliche Befunde eine falsche statistische Signifikanz erlangen können. Dies ist nicht dasselbe Argument wie das "ungültige" Sprichwort im ersten Satz.

Um auf die Frage zu antworten, ist es offensichtlich, dass die Herausgeber der Zeitschrift ihre Entscheidung nicht nur klug, sondern bereits spät getroffen haben: Sie scheinen zu glauben, dass sie herausschneiden, welcher Teil der Statistik schädlich geworden ist, und halten die nützliche Teile - sie scheinen nicht zu glauben, dass es hier etwas gibt, das durch etwas "Äquivalentes" ersetzt werden muss.

Erkenntnistheoretisch ist dies ein Fall, in dem sich Sozialwissenschaftler teilweise von dem Versuch zurückziehen, ihre Disziplin in ihren Methoden und Ergebnissen durch den Einsatz quantitativer Methoden objektiver zu machen, weil sie am Ende zu der Schlussfolgerung gelangt sind (wie?) Der Versuch schuf "mehr schlecht als gut". Ich würde sagen, dass dies eine sehr wichtige Angelegenheit ist, die prinzipiell passieren kann und die jahrelange Arbeit erfordert, um sie "zweifelsfrei" nachzuweisen und Ihrer Disziplin wirklich zu helfen. Aber nur ein oder zwei veröffentlichte Leitartikel und Artikel werden höchstwahrscheinlich (Inferenzstatistiken) einen Bürgerkrieg auslösen.

Der letzte Satz des Editorials 2015 lautet:

Wir hoffen und gehen davon aus, dass ein Verbot des NHSTP die Qualität der eingereichten Manuskripte verbessern wird, indem die Autoren von der stultifizierten Struktur des NHSTP-Denkens befreit und damit ein wichtiges Hindernis für das kreative Denken beseitigt werden. Das NHSTP dominiert seit Jahrzehnten die Psychologie. Wir hoffen, dass wir durch die Einführung des ersten NHSTP-Verbots zeigen, dass die Psychologie die Krücke des NHSTP nicht benötigt und dass andere Zeitschriften diesem Beispiel folgen.

Alecos Papadopoulos
quelle
5
Ja ... wir müssen vorsichtig sein, wenn wir ironische oder sardonische Antworten auf dieser Seite schreiben: Sie könnten (vollständig) missverstanden werden!
Whuber
4
@ naught101 ... das wäre nicht sehr diplomatisch. Beachten Sie, dass die Art und Weise, wie das NHSTP verurteilt wird, den Psychologen selbst erspart, dass sie es in all den Jahrzehnten angewendet haben. Wenn es so geschrieben wäre, wie Sie es vorgeschlagen haben, würde es eher wie ein direkter Angriff auf ihre Kollegen als Wissenschaftler aussehen. In der jetzigen Fassung impliziert der Text im Wesentlichen, dass Psychologen mit guten Absichten leider durch "jemanden" in die Irre geführt wurden, der seine "Macht der wissenschaftlichen Autorität" in dieser Angelegenheit missbraucht hat ... Vielleicht durch böse Statistiker, die von der Wissenschaft getrieben wurden Imperialismus?
Alecos Papadopoulos
4
Ein schlechter Handwerker gibt seinen Werkzeugen die Schuld.
Naught101
3
@BrianDHall Ich würde vorschlagen, mehr maßgebliche Ressourcen zu den Themen rund um NHSTP (einschließlich dieser Website) zu suchen, als die Arbeiten des jeweiligen Autors zu diesem Thema. Die Sache ist schwierig und subtil - schon aus Ihrem Kommentar sollte man zuerst die Semantik um "annehmen" und "behaupten" diskutieren ...
Alecos Papadopoulos
6
@ naught101: Wenn Sie feststellen, dass der Arbeiter die Kettensäge nicht richtig handhaben kann, geben Sie dem Werkzeug möglicherweise keine Schuld. Aber du würdest es trotzdem dem Arbeiter wegnehmen, um weiteren Schaden zu verhindern
;-)
19

PP<0.05

Das Verbot von Konfidenzintervallen ist ebenfalls übertrieben, jedoch nicht aus den von anderen genannten Gründen. Konfidenzintervalle sind nur dann sinnvoll, wenn man sie als Bayes'sche glaubwürdige Intervalle falsch interpretiert (für geeignete Nichtinformationsintervalle). Aber sie sind immer noch nützlich. Die Tatsache, dass ihre genaue frequenzabhängige Interpretation nur zu Verwirrung führt, impliziert, dass wir "aus dem Ausweichen" aussteigen und eine Bayes'sche oder Wahrscheinlichkeitsschule besuchen müssen. Nützliche Ergebnisse können jedoch erzielt werden, indem alte Konfidenzgrenzen falsch interpretiert werden.

Es ist eine Schande, dass die Herausgeber der Zeitschrift die Bayes'schen Statistiken missverstanden haben und nicht wissen, dass es einen reinen Wahrscheinlichkeitsschluss gibt. Was sie suchen, können leicht durch Bayesianische Posterior-Verteilungen unter Verwendung von leicht skeptischen Priors bereitgestellt werden.

Frank Harrell
quelle
n3±0.53±1p<0.05
4
Ich denke, Standardfehler sind zu stark vereinfacht (weil sie symmetrische Verteilungen annehmen), aber nützliche Präzisionsmaße, wie der mittlere quadratische Fehler. Sie können sich ein Präzisionsintervall vorstellen, das auf dem quadratischen Mittelwert basiert, ohne sich eine Wahrscheinlichkeitsabdeckung vorzustellen. Ich verstehe also nicht, wo eine dieser Diskussionen eine De-Emphase von Standardfehlern impliziert. Und ich habe nicht vorgeschlagen, dass wir CLs nicht mehr verwenden. Die Schwierigkeit bei CLs beruht jedoch hauptsächlich auf Versuchen, die Wahrscheinlichkeit zu interpretieren.
Frank Harrell
Hmmm. Interessant. Für mich scheint es einen so kleinen Schritt vom Standardfehler zum CI (ein konstanter Faktor!) Zu geben, dass es seltsam wäre, sie anders zu behandeln. Aber vielleicht ist es ein semantischer Punkt; Was Sie damit meinen, ist, dass die Leute über Standardfehler und CIs unterschiedlich denken und in Bezug auf CIs tendenziell mehr Verwirrung stiften. Ich frage mich, was diese spezielle Journalrichtlinie über Standardfehler aussagt (die Redaktion erwähnt sie nicht explizit).
Amöbe
2
In symmetrischen Situationen ist der Standardfehler ein Baustein für ein Konfidenzintervall. In vielen Fällen ist das richtige Konfidenzintervall jedoch asymmetrisch und kann daher überhaupt nicht auf einem Standardfehler basieren. Einige Varianten des Bootstraps und der Rücktransformation sind zwei Ansätze dieses Typs. Insbesondere die Konfidenzintervalle für die Profilwahrscheinlichkeit werden hier erwähnt.
Frank Harrell
@Frank Harrell - In Bezug auf "pure Likelihood Inference" stimme ich zu, dass eine Betonung auf die Zusammenfassung der Datenwahrscheinlichkeit ohne Verschönerung mit Schwellenwerten die Antwort zu sein scheint, nach der die Redakteure gesucht haben. AWF Edwards 'Buch "Likelihood" (1972) spricht direkt die Besorgnis des Herausgebers an: "Wir können die Berücksichtigung dieser Argumente (z. B. Signifikanztests) auf spätere Kapitel verschieben und sofort mit der Beschreibung eines Verfahrens übergehen, das auf Fischers Konzept der Likelihood basiert , das keinem dieser Objekte offensteht, die bei Signifikanztests eingeebnet werden dürfen. "
John Mark
13

Ich sehe diesen Ansatz als einen Versuch, die Unfähigkeit der Sozialpsychologie zu beheben, viele zuvor veröffentlichte "signifikante Ergebnisse" zu replizieren.

Ihre Nachteile sind:

  1. dass es nicht viele der Faktoren angeht, die zu unerwünschten Effekten führen. Z.B,

    • A) Menschen können immer noch einen Blick auf ihre Daten werfen und die Durchführung ihrer Studien unterbrechen, wenn ihnen eine Effektgröße als ausreichend groß erscheint, um von Interesse zu sein.

    • B) Große Effektgrößen scheinen nachträglich immer noch eine große Wirkung zu haben.

    • C) Die Leute werden immer noch nach interessanten und großen Effekten fischen (indem sie eine Reihe von Hypothesen in einem Experiment testen und dann die auftauchende Hypothese melden) oder

    • D) Stellen Sie sich vor, Sie hätten die ganze Zeit über einen unerwarteten seltsamen Effekt erwartet.

    Sollten nicht zuerst Anstrengungen unternommen werden, um diese Probleme anzugehen?

  2. Ein Feld, das vorwärts geht, wird einen Rückblick auf frühere Ergebnisse ziemlich schrecklich machen. Es gibt keine Möglichkeit, die Glaubwürdigkeit verschiedener Studien quantitativ zu bewerten. Wenn jede Zeitschrift diesen Ansatz umsetzt, gibt es eine Reihe von Sozialwissenschaftlern, die behaupten, dass es Beweise für X gibt, wenn es völlig unklar ist, wie glaubwürdig X ist und Wissenschaftler darüber streiten, wie ein veröffentlichter Effekt zu interpretieren ist oder ob er wichtig oder wertvoll ist sprechen über. Ist das nicht der Sinn von Statistiken? Bereitstellung einer konsistenten Methode zur Bewertung von Zahlen. Meiner Meinung nach würde dieser neue Ansatz ein Durcheinander verursachen, wenn er umfassend umgesetzt würde.

  3. Diese Änderung ermutigt die Forscher nicht, die Ergebnisse von Studien mit kleinen Effektgrößen einzureichen, sodass der Effekt der Dateilade nicht wirklich berücksichtigt wird (oder werden sie Ergebnisse mit großen n veröffentlichen, unabhängig von der Effektgröße?). Wenn wir alle Ergebnisse sorgfältig ausgearbeiteter Studien veröffentlichen würden, wären Metaanalysen und Überprüfungen von Studien, die statistische Analysen lieferten, viel besser geeignet, die Wahrheit zu identifizieren, auch wenn die Glaubwürdigkeit der Ergebnisse einzelner Studien ungewiss ist.

captain_ahab
quelle
2
@captain_ahab In Bezug auf Punkt 3 müssen wir erwähnen, dass der vorherige Leitartikel (2014) des Herausgebers ausdrücklich die Einreichung von "Null-Effekt" -Studien befürwortet hat.
Alecos Papadopoulos
1
Ich kann keinen Kommentar in der Redaktion finden, in dem Kriterien für die Veröffentlichung erörtert werden, es sei denn, die Stichproben sind größer als normal (wie sie akzeptable ns ohne Inferenzstatistik identifizieren wollen, ist mir unklar). Für mich gibt es in diesem Editorial keine Betonung, dass es ihnen egal ist, wie groß der Effekt ist. Es scheint mir, dass sie immer noch nach interessanten Effekten und interessanten Geschichten suchen werden, was meines Erachtens das größere Problem in der sozialwissenschaftlichen Arbeit ist (dh die Post-hoc-Suche nach interessanten Effekten und Geschichten).
captain_ahab
2
Was wie eine bessere Lösung scheint, ist, dass alle Wissenschaftler die Hypothese, die grundlegende Vernunft, die Kraft und den analytischen Ansatz einer Studie an einem ÖFFENTLICHEN Ort protokollieren müssen, bevor sie die Studie durchführen. Und dann darauf beschränkt zu sein, diese Studie auf vorgeschriebene Weise zu veröffentlichen. Wenn ein unerwarteter interessanter Effekt festgestellt wird, sollten sie öffentlich protokollieren und eine neue Studie durchführen, in der dieser Effekt untersucht wird. Dieser Ansatz ermöglicht es Wissenschaftlern, ihre Produktivität zu demonstrieren, ohne neue Effekte zu veröffentlichen.
captain_ahab
7

Ich bin auf ein wunderbares Zitat gestoßen, das fast für den gleichen Punkt spricht, aber nicht ganz - da es sich um einen ersten Absatz in einem Lehrbuch handelt, in dem es hauptsächlich um frequentistische Statistiken und Hypothesentests geht.

Nicht-Statistiker wie der Autor sind der Ansicht, dass für gute Experimente keine Statistiken erforderlich sind. Sie haben völlig recht. [...] Der Haken ist natürlich, dass es schwierig ist, gute Experimente durchzuführen. Die meisten Menschen brauchen jede Hilfe, um zu verhindern, dass sie sich lächerlich machen, indem sie behaupten, dass ihre Lieblingstheorie durch Beobachtungen gestützt wird, die nichts dergleichen bewirken. Und die Hauptfunktion dieses statistischen Teils, der sich mit Signifikanztests befasst, besteht darin, zu verhindern, dass Menschen sich selbst zum Narren halten. Unter diesem Gesichtspunkt besteht die Funktion von Signifikanztests darin, zu verhindern, dass Personen Experimente veröffentlichen, und sie nicht zu ermutigen. Im Idealfall sollten Signifikanztests niemals in gedruckter Form erscheinen, da sie, wenn überhaupt, in den Vorstufen verwendet wurden, um unzureichende Experimente zu ermitteln.

- David Colquhoun, Vorlesungen über Biostatistik , 1971

Amöbe
quelle
1
Ihr Beitrag ist eigentlich ein Kommentar und keine Antwort. Ich verzichte daher auf eine Abstimmung, möchte mich jedoch bei Ihnen dafür bedanken, dass Sie das Zitat geteilt haben. Es gibt so viele offensichtliche Missverständnisse in dieser Passage, dass es umfangreicher Anstrengungen bedarf (ganz zu schweigen vom Leerzeichen), um sie alle aufzuzeigen und zu entlarven. In einem Wort ist der Widerspruch zu diesen Behauptungen jedoch "Effizienz". Wenn jeder unbegrenzte Zeit und unbegrenztes Budget hätte, könnten wir zumindest danach streben, "gute Experimente" durchzuführen. Aber wenn die Ressourcen begrenzt sind, wäre es tollkühn (und auch kostspielig), nur "endgültige, ... eindeutige" Experimente durchzuführen.
whuber
2
Danke für deinen Kommentar, @whuber; Ich stimme dem zu, was du sagst. Dennoch muss ich hinzufügen, dass ich es attraktiv finde zu sagen, dass idealerweise experimentelle Daten so überzeugend sein sollten, dass formale Hypothesentests überflüssig werden. Dies ist kein unerreichbares Ideal! In meinem Bereich (wo p-Werte viel verwendet werden), so finde ich , dass die besten Papiere sind , ohne sie zu überzeugen: zB weil sie eine Folge von mehreren Experimenten unterstützen sie vorstellen, die zusammengenommen, offensichtlich kein statistischer Zufallstreffer sein kann. Zu Kommentar: Es war zu lang für einen Kommentar und ich dachte, es ist in Ordnung als CW-Antwort.
Amöbe
Ja, ich verstehe, warum es als Antwort veröffentlicht werden musste, und stimme daher nicht ab, um es in einen Kommentar zu verschieben (der den letzten Teil des Zitats abschneiden würde). Ich stimme zu, dass das Ideal in bestimmten Fällen nicht unerreichbar ist . Ich stimme auch zu, dass es ein schönes Ideal ist, das man berücksichtigen sollte. Als Leitfaden für die Gestaltung von Experimenten (was insgesamt eine Disziplin bei der Zuweisung von Ressourcen darstellt) kann es sich jedoch um einen schrecklichen Fehler handeln. (Dies ist zweifellos umstritten.) Der Vorschlag, dass ein "gutes" Experiment niemals statistische Methoden erfordern würde, hält jedoch auch einer flüchtigen Prüfung nicht stand.
Whuber
1
Vielleicht ist eine Art zu lesen, die besagt, dass der anfängliche Signifikanztest, bei dem eine Substanz eine bestimmte physiologische Reaktion hervorruft, nicht mehr relevant, wenn Sie Ihre Untersuchungen zur Wirkung verschiedener Arten von Inhibitoren auf die Dosis-Wirkungs-Kurve veröffentlichen.
Scortchi