Was verursacht die Diskontinuität bei der Verteilung der veröffentlichten p-Werte bei p <.05?

In einer kürzlich erschienenen Arbeit haben Masicampo und Lalande (ML) eine große Anzahl von p-Werten gesammelt, die in vielen verschiedenen Studien veröffentlicht wurden. Sie beobachteten einen merkwürdigen Sprung im Histogramm der p-Werte genau auf dem kanonisch kritischen Niveau von 5%.

Es gibt eine nette Diskussion über dieses ML-Phänomen auf Prof. Wassermans Blog:

http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/

Auf seinem Blog finden Sie das Histogramm:

Histogramm der veröffentlichten p-Werte

Wie kommt es zu diesem Verhalten der empirischen Verteilung der veröffentlichten p-Werte, da der 5% -Gehalt eine Konvention und kein Naturgesetz ist ?

Selektionsbias, systematische "Anpassung" von p-Werten knapp über dem kanonischen kritischen Level, oder was?

statistical-significance p-value meta-analysis Zen
quelle

Es gibt mindestens 2 Arten von Erklärungen: 1) das "File Drawer Problem" - Studien mit p <.05 werden veröffentlicht, die oben genannten nicht, es ist also wirklich eine Mischung aus zwei Distributionen. 2) Leute manipulieren Dinge, möglicherweise unbewusst , um p <.05 zu bekommen

Peter Flom - Reinstate Monica

Hi @Zen. Ja, genau so etwas. Es gibt eine starke Tendenz, solche Dinge zu tun. Wenn sich unsere Theorie bestätigt, ist es weniger wahrscheinlich, dass wir statistische Probleme suchen, als wenn dies nicht der Fall ist. Dies scheint Teil unserer Natur zu sein, aber es ist etwas, vor dem wir uns schützen müssen.

Peter Flom - Wiedereinsetzung von Monica

@Zen Möglicherweise interessiert Sie dieser Beitrag in Andrew Gelmans Blog, in dem einige Forschungsergebnisse erwähnt werden, bei denen festgestellt wird, dass in der Forschung zu Publikationsbias keine Publikationsbias enthalten sind ...! andrewgelman.com/2012/04/…

smillig

Interessant wäre die Rückrechnung der p-Werte aus Aufsätzen in Zeitschriften, die ausdrücklich p-Wert-basierte Aufsätze ablehnen, wie es die Epidemiologie gewohnt ist (und in gewisser Hinsicht immer noch tut). Ich frage mich, ob es sich ändert, wenn das Journal feststellt, dass es das nicht interessiert, oder ob Rezensenten / Autoren immer noch mentale Ad-hoc-Tests durchführen, die auf Konfidenzintervallen basieren.

Fomite

Wie in Larrys Blog erläutert, handelt es sich hier nicht um eine Zufallsstichprobe von p-Werten aus der Welt der p-Werte, sondern um eine Sammlung veröffentlichter p-Werte. Es gibt daher keinen Grund, warum eine gleichmäßige Verteilung im Bild erscheinen sollte, selbst als Teil einer Mischung, wie sie in Larrys Beitrag modelliert wurde.

Xi'an

Antworten:

(1) Wie bereits von @PeterFlom erwähnt, könnte eine Erklärung mit dem Problem "Dateiauszug" zusammenhängen. (2) @Zen erwähnte auch den Fall, in dem der / die Autor (en) die Daten oder die Modelle manipuliert (z . B. Datenbaggerung ). (3) Wir prüfen Hypothesen jedoch nicht rein zufällig. Das heißt, Hypothesen werden nicht zufällig ausgewählt, sondern es gibt (mehr oder weniger starke) theoretische Annahmen.

Vielleicht interessieren Sie auch die Arbeiten von Gerber und Malhotra, die kürzlich in diesem Bereich nach dem sogenannten "Caliper Test" geforscht haben:

Diese Sonderausgabe von Andreas Diekmann könnte Sie auch interessieren:

Methodologische Artefakte, Datenmanipulation und Betrug in Wirtschafts- und Sozialwissenschaften

Bernd Weiss
quelle

Ein Argument, das bislang fehlt, ist die Flexibilität der Datenanalyse, die als Freiheitsgrade von Forschern bezeichnet wird. In jeder Analyse müssen viele Entscheidungen getroffen werden, wo das Ausreißerkriterium festgelegt wird, wie die Daten transformiert werden und ...

Dies wurde kürzlich in einem einflussreichen Artikel von Simmons, Nelson und Simonsohn angesprochen:

Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Falsch-Positive Psychologie: Unbekannte Flexibilität bei der Datenerfassung und -analyse ermöglicht es, alles als signifikant darzustellen. Psychological Science , 22 (11), 1359–1366. doi: 10.1177 / 0956797611417632

(Beachten Sie, dass dies der gleiche Simonsohn ist, der für einige kürzlich entdeckte Fälle von Datenbetrug in der Sozialpsychologie verantwortlich ist, z. B. Interview , Blog-Post )

Henrik
quelle

Ich denke, es ist eine Kombination von allem, was bereits gesagt wurde. Dies sind sehr interessante Daten, und ich habe bisher nicht daran gedacht, solche p-Wert-Verteilungen zu betrachten. Wenn die Nullhypothese wahr ist, wäre der p-Wert einheitlich. Aber natürlich würden wir bei veröffentlichten Ergebnissen aus vielen Gründen keine Einheitlichkeit sehen.

Wir machen die Studie, weil wir erwarten, dass die Nullhypothese falsch ist. Wir sollten also öfter signifikante Ergebnisse erzielen als nicht.
Wenn die Nullhypothese nur die halbe Zeit falsch wäre, würden wir keine gleichmäßige Verteilung der p-Werte erhalten.
Problem mit der Aktenschublade: Wie bereits erwähnt, hätten wir Angst, das Papier einzureichen, wenn der p-Wert nicht signifikant ist, z. B. unter 0,05.
Die Verlage lehnen das Papier aufgrund nicht signifikanter Ergebnisse ab, obwohl wir uns entschieden haben, es einzureichen.
Wenn die Ergebnisse an der Grenze liegen, werden wir (möglicherweise nicht in böswilliger Absicht) Maßnahmen ergreifen, um die Bedeutung zu ermitteln. (a) Runden Sie auf 0,05 ab, wenn der p-Wert 0,053 beträgt. (b) Finden Sie Beobachtungen, von denen wir glauben, dass sie Ausreißer sind, und nachdem Sie sie entfernt haben, fällt der p-Wert unter 0,05 ab.

Ich hoffe, dies fasst alles, was gesagt wurde, auf einigermaßen verständliche Weise zusammen.

Was ich für interessant halte, ist, dass wir p-Werte zwischen 0,05 und 0,1 sehen. Wenn Veröffentlichungsregeln etwas mit p-Werten über 0,05 ablehnen würden, würde der rechte Schwanz bei 0,05 abgeschnitten. Hat es tatsächlich bei 0,10 abgeschnitten? In diesem Fall akzeptieren möglicherweise einige Autoren und Zeitschriften ein Signifikanzniveau von 0,10, jedoch nichts Höheres.

Da viele Papiere mehrere p-Werte enthalten (angepasst an die Multiplizität oder nicht) und das Papier akzeptiert wird, weil die Schlüsseltests signifikant waren, werden möglicherweise nicht signifikante p-Werte in der Liste aufgeführt. Dies wirft die Frage auf, ob alle angegebenen p-Werte in der Arbeit im Histogramm enthalten sind.

Eine weitere Beobachtung ist, dass die Häufigkeit veröffentlichter Arbeiten deutlich zunimmt, da der p-Wert weit unter 0,05 sinkt. Vielleicht ist das ein Hinweis darauf, dass Autoren das p-Wert-Denken überinterpretieren, dass p <0,0001 viel publikationswürdiger ist. Ich denke, der Autor ignoriert oder merkt nicht, dass der p-Wert genauso stark von der Sample-Größe abhängt wie von der Größe der Effektgröße.

Michael R. Chernick
quelle