Am 25. Februar 2015 hat die Zeitschrift Basic and Applied Social Psychology einen Leitartikel herausgegeben , der Werte und Konfidenzintervalle aus allen zukünftigen Veröffentlichungen verbietet .
Konkret heißt es (Formatierung und Hervorhebung gehören mir):
[...] vor der Veröffentlichung müssen die Autoren alle Überreste des NHSTP ( Werte, t- Werte, F- Werte, Aussagen über "signifikante" Unterschiede oder deren Fehlen) entfernen , und so weiter).
Analog dazu, wie der NHSTP die Wahrscheinlichkeit der Nullhypothese nicht liefert, die erforderlich ist, um einen stichhaltigen Grund für deren Zurückweisung zu liefern, liefern Konfidenzintervalle keinen stichhaltigen Grund für die Schlussfolgerung, dass der interessierende Populationsparameter wahrscheinlich innerhalb der angegebenen liegt Intervall. Daher sind Konfidenzintervalle auch von BASP ausgeschlossen.
In Bezug auf Bayesianische Verfahren behalten wir uns das Recht vor, Einzelfallentscheidungen zu treffen, weshalb Bayesianische Verfahren in BASP weder erforderlich noch verboten sind.
[...] Sind statistische Inferenzverfahren erforderlich? - Nein, [...] BASP erfordert jedoch aussagekräftige Beschreibungsstatistiken, einschließlich Effektgrößen.
Oder, wie @whuber es ausdrückte, sollte dieser Ansatz allgemein als Paradigma der quantitativen Forschung befürwortet werden? Und wenn nicht, warum nicht?
PS. Beachten Sie, dass es in meiner Frage nicht um das Verbot selbst geht . es geht um den vorgeschlagenen Ansatz. Ich frage auch nicht nach einer frequentistischen oder bayesianischen Folgerung. Das Editorial ist auch in Bezug auf Bayes'sche Methoden ziemlich negativ; Es geht also im Wesentlichen darum, Statistiken zu verwenden, anstatt überhaupt keine Statistiken zu verwenden.
Antworten:
Der erste Satz des aktuellen Leitartikels von 2015, auf den das OP verweist, lautet:
(meine Betonung)
Mit anderen Worten, für die Herausgeber ist es eine bereits nachgewiesene wissenschaftliche Tatsache, dass das "Nullhypothesen-Signifikanz-Testen" ungültig ist, und das Editorial von 2014 hat dies nur betont, während das aktuelle Editorial von 2015 diese Tatsache nur implementiert.
Der (auch böswillige) Missbrauch von NHSTP wird in der Tat gut diskutiert und dokumentiert. Und es ist in der Geschichte der Menschheit nicht ungewöhnlich, dass "Dinge verboten werden", weil festgestellt wurde, dass sie letztendlich missbraucht und mehr als sinnvoll eingesetzt wurden (sollten wir das nicht statistisch testen?). Es kann eine "zweitbeste" Lösung sein, das zu reduzieren, was im Durchschnitt (Inferenzstatistik) zu Verlusten und nicht zu Gewinnen geführt hat, und wir sagen voraus (Inferenzstatistik), dass dies auch in Zukunft schädlich sein wird.
Aber der Eifer hinter dem Wortlaut des oben genannten ersten Satzes enthüllen, macht diese -Genau aussieht, als Eiferer Ansatz eher als eine besonnene Entscheidung , die Hand zu schneiden , die eher als Angebot zu stehlen neigt. Wenn man das im obigen Zitat erwähnte ein Jahr ältere Editorial (DOI: 10.1080 / 01973533.2014.865505) liest, wird man sehen, dass dies nur ein Teil einer Neuausrichtung der Richtlinien des Journals durch einen neuen Editor ist.
Sie scrollen durch das Editorial und schreiben
Ihre Schlussfolgerung in Bezug auf ihre Disziplin scheint also zu sein, dass Nullhypothesen "zu oft" zurückgewiesen werden und so angebliche Befunde eine falsche statistische Signifikanz erlangen können. Dies ist nicht dasselbe Argument wie das "ungültige" Sprichwort im ersten Satz.
Um auf die Frage zu antworten, ist es offensichtlich, dass die Herausgeber der Zeitschrift ihre Entscheidung nicht nur klug, sondern bereits spät getroffen haben: Sie scheinen zu glauben, dass sie herausschneiden, welcher Teil der Statistik schädlich geworden ist, und halten die nützliche Teile - sie scheinen nicht zu glauben, dass es hier etwas gibt, das durch etwas "Äquivalentes" ersetzt werden muss.
Erkenntnistheoretisch ist dies ein Fall, in dem sich Sozialwissenschaftler teilweise von dem Versuch zurückziehen, ihre Disziplin in ihren Methoden und Ergebnissen durch den Einsatz quantitativer Methoden objektiver zu machen, weil sie am Ende zu der Schlussfolgerung gelangt sind (wie?) Der Versuch schuf "mehr schlecht als gut". Ich würde sagen, dass dies eine sehr wichtige Angelegenheit ist, die prinzipiell passieren kann und die jahrelange Arbeit erfordert, um sie "zweifelsfrei" nachzuweisen und Ihrer Disziplin wirklich zu helfen. Aber nur ein oder zwei veröffentlichte Leitartikel und Artikel werden höchstwahrscheinlich (Inferenzstatistiken) einen Bürgerkrieg auslösen.
Der letzte Satz des Editorials 2015 lautet:
quelle
Das Verbot von Konfidenzintervallen ist ebenfalls übertrieben, jedoch nicht aus den von anderen genannten Gründen. Konfidenzintervalle sind nur dann sinnvoll, wenn man sie als Bayes'sche glaubwürdige Intervalle falsch interpretiert (für geeignete Nichtinformationsintervalle). Aber sie sind immer noch nützlich. Die Tatsache, dass ihre genaue frequenzabhängige Interpretation nur zu Verwirrung führt, impliziert, dass wir "aus dem Ausweichen" aussteigen und eine Bayes'sche oder Wahrscheinlichkeitsschule besuchen müssen. Nützliche Ergebnisse können jedoch erzielt werden, indem alte Konfidenzgrenzen falsch interpretiert werden.
Es ist eine Schande, dass die Herausgeber der Zeitschrift die Bayes'schen Statistiken missverstanden haben und nicht wissen, dass es einen reinen Wahrscheinlichkeitsschluss gibt. Was sie suchen, können leicht durch Bayesianische Posterior-Verteilungen unter Verwendung von leicht skeptischen Priors bereitgestellt werden.
quelle
Ich sehe diesen Ansatz als einen Versuch, die Unfähigkeit der Sozialpsychologie zu beheben, viele zuvor veröffentlichte "signifikante Ergebnisse" zu replizieren.
Ihre Nachteile sind:
dass es nicht viele der Faktoren angeht, die zu unerwünschten Effekten führen. Z.B,
A) Menschen können immer noch einen Blick auf ihre Daten werfen und die Durchführung ihrer Studien unterbrechen, wenn ihnen eine Effektgröße als ausreichend groß erscheint, um von Interesse zu sein.
B) Große Effektgrößen scheinen nachträglich immer noch eine große Wirkung zu haben.
C) Die Leute werden immer noch nach interessanten und großen Effekten fischen (indem sie eine Reihe von Hypothesen in einem Experiment testen und dann die auftauchende Hypothese melden) oder
D) Stellen Sie sich vor, Sie hätten die ganze Zeit über einen unerwarteten seltsamen Effekt erwartet.
Sollten nicht zuerst Anstrengungen unternommen werden, um diese Probleme anzugehen?
Ein Feld, das vorwärts geht, wird einen Rückblick auf frühere Ergebnisse ziemlich schrecklich machen. Es gibt keine Möglichkeit, die Glaubwürdigkeit verschiedener Studien quantitativ zu bewerten. Wenn jede Zeitschrift diesen Ansatz umsetzt, gibt es eine Reihe von Sozialwissenschaftlern, die behaupten, dass es Beweise für X gibt, wenn es völlig unklar ist, wie glaubwürdig X ist und Wissenschaftler darüber streiten, wie ein veröffentlichter Effekt zu interpretieren ist oder ob er wichtig oder wertvoll ist sprechen über. Ist das nicht der Sinn von Statistiken? Bereitstellung einer konsistenten Methode zur Bewertung von Zahlen. Meiner Meinung nach würde dieser neue Ansatz ein Durcheinander verursachen, wenn er umfassend umgesetzt würde.
Diese Änderung ermutigt die Forscher nicht, die Ergebnisse von Studien mit kleinen Effektgrößen einzureichen, sodass der Effekt der Dateilade nicht wirklich berücksichtigt wird (oder werden sie Ergebnisse mit großen n veröffentlichen, unabhängig von der Effektgröße?). Wenn wir alle Ergebnisse sorgfältig ausgearbeiteter Studien veröffentlichen würden, wären Metaanalysen und Überprüfungen von Studien, die statistische Analysen lieferten, viel besser geeignet, die Wahrheit zu identifizieren, auch wenn die Glaubwürdigkeit der Ergebnisse einzelner Studien ungewiss ist.
quelle
Ich bin auf ein wunderbares Zitat gestoßen, das fast für den gleichen Punkt spricht, aber nicht ganz - da es sich um einen ersten Absatz in einem Lehrbuch handelt, in dem es hauptsächlich um frequentistische Statistiken und Hypothesentests geht.
quelle