Wie viel wissen wir über P-Hacking in freier Wildbahn?

94

Der Ausdruck p- Hacking (auch: " Datenbaggern " , "Schnüffeln" oder "Fischen") bezieht sich auf verschiedene Arten statistischer Verfehlungen, bei denen Ergebnisse künstlich statistisch signifikant werden. Es gibt viele Möglichkeiten, ein "signifikanteres" Ergebnis zu erzielen, unter anderem:

  • nur Analysieren einer "interessanten" Teilmenge der Daten , in denen ein Muster gefunden wurde;
  • Nicht ordnungsgemäße Anpassung für Mehrfachtests , insbesondere Post-hoc-Tests, und Nichtmeldung von nicht signifikanten Tests;
  • Probieren Sie verschiedene Tests derselben Hypothese aus , z. B. sowohl einen parametrischen als auch einen nicht parametrischen Test ( in diesem Thread wird dies teilweise erörtert ), geben Sie jedoch nur den wichtigsten an.
  • Experimentieren mit Einschluss / Ausschluss von Datenpunkten , bis das gewünschte Ergebnis erzielt wird. Eine Möglichkeit bietet sich, wenn "Datenausreißer" bereinigt werden, aber auch wenn eine mehrdeutige Definition (z. B. in einer ökonometrischen Studie zu "Industrieländern"), unterschiedliche Definitionen unterschiedliche Ländergruppen ergeben oder qualitative Einschlusskriterien (z. B. in einer Metaanalyse) angewendet werden kann es ein sehr ausgewogenes Argument sein, ob die Methodik einer bestimmten Studie robust genug ist, um zu berücksichtigen);
  • Das vorherige Beispiel bezieht sich auf das optionale Stoppen , dh das Analysieren eines Datensatzes und die Entscheidung, ob weitere Daten gesammelt werden sollen oder nicht, abhängig von den bisher gesammelten Daten ("Dies ist beinahe bedeutsam, messen wir drei weitere Schüler!"), ohne dies zu berücksichtigen in der Analyse;
  • Experimentieren während der Modellanpassung , insbesondere unter Einbeziehung von Kovariaten, aber auch unter Berücksichtigung von Datentransformationen / funktionaler Form.

Wir wissen also, dass P- Hacking durchgeführt werden kann. Es wird oft als eine der "Gefahren des p- Wertes" aufgeführt und wurde in dem ASA-Bericht über statistische Signifikanz erwähnt, der hier auf Cross Validated diskutiert wurde , sodass wir auch wissen, dass es eine schlechte Sache ist. Obwohl einige zweifelhafte Motivationen und (insbesondere im Wettbewerb um wissenschaftliche Veröffentlichungen) kontraproduktive Anreize offensichtlich sind, ist es meines Erachtens schwer herauszufinden, warum dies getan wird, ob vorsätzliches Fehlverhalten oder einfache Ignoranz. Jemand, der p- Werte aus einer schrittweisen Regression meldet (weil er feststellt, dass schrittweise Prozeduren "gute Modelle erzeugen", aber das behauptete p nicht kennt)-Werte sind ungültig) ist im letzteren Lager, aber der Effekt ist immer noch p -hacking unter dem letzten meiner Aufzählungspunkte oben.

Es gibt sicherlich Hinweise darauf, dass p- Hacking "out there" ist, z. B. suchen Head et al. (2015) nach verräterischen Hinweisen, die die wissenschaftliche Literatur infizieren, aber wie ist der aktuelle Stand unserer Evidenzbasis dazu? Mir ist bewusst, dass der Ansatz von Head et al. Nicht unumstritten war. Daher wäre der aktuelle Stand der Literatur oder das allgemeine Denken in der akademischen Gemeinschaft interessant. Haben wir zum Beispiel eine Vorstellung von:

  • Wie häufig ist es und inwieweit können wir sein Auftreten von Publikationsbias unterscheiden ? (Ist diese Unterscheidung überhaupt sinnvoll?)
  • Ist der Effekt an der Grenze von ? Werden ähnliche Effekte zum Beispiel bei , oder sehen wir ganze Bereiche von p- Werten betroffen?p 0,01p0.05p0.01
  • Unterscheiden sich die Muster beim P- Hacking zwischen den akademischen Bereichen?
  • Haben wir eine Vorstellung davon, welche der Mechanismen des P- Hacking (von denen einige in den obigen Aufzählungspunkten aufgeführt sind) am häufigsten sind? Haben sich einige Formen als schwerer zu erkennen erwiesen als andere, weil sie "besser getarnt" sind?

Verweise

Kopf, ML, Holman, L., Lanfear, R., Kahn, AT & Jennions, MD (2015). Das Ausmaß und die Folgen von P- Hacking in der Wissenschaft . PLoS Biol , 13 (3), e1002106.

Silberfisch
quelle
6
Ihre letzte Frage ist eine gute Idee für eine Recherche: Geben Sie einer Gruppe von Forschern aus verschiedenen Bereichen einige Rohdaten, statten Sie sie mit SPSS aus (oder was auch immer sie verwenden) und zeichnen Sie dann auf, was sie tun, während sie miteinander im Wettbewerb stehen, um bedeutendere Ergebnisse zu erzielen .
Tim
1
Man könnte es schaffen, ohne dass die Probanden wissen, dass es passiert ist, wenn man eine Geschichte von Kaggle-Einsendungen verwendet. Sie veröffentlichen nicht, aber sie versuchen auf jede erdenkliche Weise, die magische Zahl zu treffen.
EngrStudent
1
Verfügt crossvalidated über Sammlungen (z. B. Community-Wikis) einfacher Simulationsbeispiele für P-Hacking? Ich stelle mir Spielzeugbeispiele vor, in denen der simulierte Forscher auf "marginal signifikante" Ergebnisse reagiert, indem er mehr Daten sammelt, mit Regressionsspezifikationen experimentiert usw.
Adrian,
2
@Adrian CV ist nur eine Q & A-Site, es enthält keine Daten oder Code, es gibt kein verstecktes Repository - alles, was Sie in den Antworten finden, gehört Ihnen unter CC-Lizenz :) Diese Frage scheint zu lauten, solche Beispiele zu sammeln.
Tim
1
@ Tim natürlich, ich hätte mir keine versteckten Code-Repos vorgestellt - nur Code-Schnipsel, die in den Antworten enthalten sind. Zum Beispiel könnte jemand fragen "Was ist P-Hacking?", Und jemand könnte eine Spielzeug-R-Simulation in seine Antwort aufnehmen. Wäre es angebracht, die aktuelle Frage mit Codebeispielen zu beantworten? "Wie viel wissen wir" ist eine sehr breite Frage.
Adrian

Antworten:

76

ZUSAMMENFASSUNG: Wenn "P-Hacking" allgemein als "forking path" von a la Gelman verstanden werden soll, lautet die Antwort auf seine Verbreitung, dass es nahezu universell ist.


Andrew Gelman schreibt gerne über dieses Thema und hat in letzter Zeit ausführlich darüber in seinem Blog geschrieben. Ich stimme ihm nicht immer zu, aber ich mag seine Sicht auf Hacking. Hier ist ein Auszug aus der Einleitung zu seinem Artikel „Garden of Forking Paths“ (Gelman & Loken 2013; eine Version erschien in American Scientist 2014; siehe auch Gelmans kurzen Kommentar zur Erklärung der ASA), Schwerpunkt:p

Dieses Problem wird manchmal als "p-Hacking" oder "Forscherfreiheitsgrade" bezeichnet (Simmons, Nelson und Simonsohn, 2011). In einem kürzlich erschienenen Artikel haben wir von "Fischereiexpeditionen [...]" gesprochen. Wir haben jedoch das Gefühl, dass der Begriff „Fischen“ insofern unglücklich war, als er ein Bild eines Forschers hervorruft, der einen Vergleich nach dem anderen durchführt und die Schnur wiederholt in den See wirft, bis ein Fisch hängen bleibt. Wir haben keinen Grund zu der Annahme, dass Forscher dies regelmäßig tun. Wir glauben, dass die Forscher aufgrund ihrer Annahmen und Daten eine vernünftige Analyse durchführen können. Wären die Daten jedoch anders ausgefallen, hätten sie auch andere Analysen durchführen können, die unter diesen Umständen genauso vernünftig waren.

Wir bedauern die Verbreitung der Begriffe "Fischen" und "P-Hacking" (und sogar "Freiheitsgrade von Forschern") aus zwei Gründen: Erstens, weil Forscher irreführende Implikationen haben, wenn solche Begriffe zur Beschreibung einer Studie verwendet werden probierten bewusst viele verschiedene Analysen an einem einzigen Datensatz aus; und zweitens, weil es dazu führen kann, dass Forscher, die wissen, dass sie nicht viele verschiedene Analysen durchgeführt haben, fälschlicherweise glauben, dass sie nicht so stark den Problemen der Freiheitsgrade von Forschern ausgesetzt sind. [...] Unser entscheidender Punkt ist, dass es möglich ist, mehrere potenzielle Vergleiche im Sinne einer Datenanalyse durchzuführen, deren Details in hohem Maße von Daten abhängen, ohne dass der Forscher bewusst fischen oder mehrere p-Werte untersuchen muss .

Also: Gelman mag den Begriff P-Hacking nicht, weil er impliziert, dass die Forschungen aktiv betrogen haben. Während die Probleme einfach deshalb auftreten können, weil die Forscher nach Betrachtung der Daten, dh nach einer explorativen Analyse, auswählen, welche Tests durchgeführt / gemeldet werden sollen.

Mit einigen Erfahrungen in der Biologie kann ich mit Sicherheit sagen, dass das jeder tut. Jeder (ich eingeschlossen) sammelt einige Daten mit nur vagen A-priori-Hypothesen, führt ausführliche explorative Analysen durch, führt verschiedene Signifikanztests durch, sammelt weitere Daten, führt die Tests durch und führt sie erneut durch und meldet schließlich einige Werte im endgültigen Manuskript. All dies geschieht, ohne aktiv zu schummeln, dummes Kirschpflücken im Stil von xkcd-jelly beans zu machen oder bewusst irgendetwas zu hacken.p

Also , wenn „p-Hacking“ ist im Großen und Ganzen zu verstehen, a la Gelmans Forking Pfade, die Antwort darauf , wie weit verbreitet ist, ist , dass es fast universell ist.

Die einzigen Ausnahmen, die in den Sinn kommen, sind vollständig vorregistrierte Replikationsstudien in der Psychologie oder vollständig vorregistrierte medizinische Studien.

Spezifische Beweise

Amüsanterweise haben einige Leute Forscher befragt, um herauszufinden, dass viele zugeben, dass sie irgendeine Art von Hacking betreiben ( John et al., 2012, Messung der Häufigkeit fragwürdiger Forschungspraktiken mit Anreizen für Wahrheitsfindung ):

John et al

Ansonsten hat jeder von der sogenannten "Replikationskrise" in der Psychologie gehört: Mehr als die Hälfte der in den Top-Psychologie-Journalen veröffentlichten aktuellen Studien repliziert nicht ( Nosek et al. 2015, Schätzung der Reproduzierbarkeit der Psychologie ). (Diese Studie war in letzter Zeit wieder in allen Blogs vertreten, da in der Ausgabe von Science vom März 2016 ein Kommentar veröffentlicht wurde, der versucht, Nosek et al. Zu widerlegen, sowie eine Antwort von Nosek et al. Die Diskussion wurde an anderer Stelle fortgesetzt, siehe Beitrag von Andrew Gelman und dem RetractionWatch-Post , auf den er verlinkt. Um es höflich auszudrücken, die Kritik ist nicht überzeugend.)

Update November 2018: Kaplan und Irvin, 2017, die Wahrscheinlichkeit , dass große klinische NHLBI-Studien keine Auswirkungen haben, hat im Laufe der Zeit zugenommen. Dies zeigt, dass der Anteil der klinischen Studien, in denen keine Ergebnisse gemeldet wurden, von 43% auf 92% gestiegen ist, nachdem eine Vorregistrierung erforderlich wurde:

Bildbeschreibung hier eingeben


P Wert-Verteilungen in der Literatur

Head et al. 2015

Von Head et al. Habe ich noch nichts gehört . studieren Sie vorher, aber haben Sie jetzt einige Zeit aufgewendet, die umgebende Literatur durchzublättern. Ich habe auch einen kurzen Blick auf ihre Rohdaten geworfen .

Head et al. lud alle Open-Access-Papiere von PubMed herunter und extrahierte alle im Text angegebenen p-Werte, wobei 2,7 Mio. p-Werte erhalten wurden. Von diesen wurden 1,1 Mio. als und nicht als . Von diesen haben Head et al. nahm zufällig einen p-Wert pro Papier, aber dies scheint die Verteilung nicht zu ändern. So sieht die Verteilung aller 1,1-Millionen-Werte aus (zwischen und ):p=ap<a00.06

Verteilung der p-Werte in der Literatur

Ich habe bin width verwendet, und man kann eine Menge vorhersehbarer Rundungen in den angegebenen Werten sehen. Nun haben Head et al. Gehen Sie wie folgt vor: Sie vergleichen die Anzahl der Werte im Intervall und im Intervall . Die erstere Zahl fällt (deutlich) größer aus und wird als Beweis für Hacking angesehen. Wenn man blinzelt, sieht man es an meiner Figur.0.0001pp(0.045,0.5)(0.04,0.045)p

Ich finde das aus einem einfachen Grund sehr wenig überzeugend. Wer möchte seine Befunde mit melden ? Tatsächlich scheinen viele Menschen genau das zu tun, aber es erscheint dennoch naheliegend, diesen unbefriedigenden Grenzwert zu vermeiden und stattdessen eine andere signifikante Ziffer zu melden, z. B. (es sei denn natürlich, es ist ). Ein gewisser Überschuss an Werten, der nahe bei kann also durch die Rundungspräferenzen des Forschers erklärt werden.p=0.05p=0.048p=0.052p0.05

Und abgesehen davon ist der Effekt winzig .

(Der einzige starke Effekt, den ich auf diese Abbildung sehe, ist ein deutlicher Abfall der Wert-Dichte unmittelbar nach . Dies ist eindeutig auf die Publikationsverzerrung zurückzuführen.)p0.05

Sofern ich nichts verpasst habe, haben Head et al. Diskutieren Sie nicht einmal diese mögliche alternative Erklärung. Sie zeigen auch kein Histogramm der Werte.p

Es gibt eine Reihe von Zeitungen, die Head et al. Kritisieren. In diesem unveröffentlichten Manuskript argumentiert Hartgerink, dass Head et al. hätte und in ihren Vergleich einbeziehen sollen (und wenn sie dies getan hätten, hätten sie ihre Wirkung nicht gefunden). Ich bin mir darüber nicht sicher; es klingt nicht sehr überzeugend. Es wäre viel besser, wenn wir die Verteilung der "rohen" Werte irgendwie ohne Rundung untersuchen könnten.p=0.04p=0.05p

Verteilungen von Werten ohne Rundungp

In diesem PeerJ-Papier von 2016 (Preprint 2015) haben Hartgerink et al. extrahiert p-Werte von den vielen Papieren in Top-Psychologie Zeitschriften und genau das tun: sie neu berechnen genaue - Werte aus der ausgewiesenen -, -, - usw. Statistikwerte; Diese Verteilung ist frei von Rundungsartefakten und weist keinerlei Anstieg in Richtung 0,05 auf (Abbildung 4):ptFχ2

Hartgerink PeerJ Papier

Ein sehr ähnlicher Ansatz wird von Krawczyk 2015 in PLoS One verfolgt, der 135.000 Werte aus den führenden experimentellen Psychologie-Journalen extrahiert . So sieht die Verteilung für die angegebenen (links) und neu berechneten (rechts) Werte aus:pp

Krawczyk

Der Unterschied ist auffällig. Das linke Histogramm zeigt einige seltsame Dinge, die um , aber auf dem rechten ist es weg. Dies bedeutet, dass dieses seltsame Zeug auf die Präferenzen der Leute zurückzuführen ist, Werte um zu melden und nicht auf Hacking.p=0.05p0.05p

Mascicampo und Lalande

Es scheint, dass die ersten, die den angeblichen Überschuss an Werten knapp unter 0,05 beobachteten, Masicampo & Lalande 2012 waren , das drei Top-Zeitschriften in der Psychologie ansah :p

Mascicampo und Lalande

Das sieht zwar beeindruckend aus, aber Lakens 2015 ( Preprint ) argumentiert in einem veröffentlichten Kommentar, dass dies nur dank der irreführenden exponentiellen Anpassung beeindruckend erscheint . Siehe auch Lakens 2015, Zu den Herausforderungen, Schlussfolgerungen aus p-Werten knapp unter 0,05 und den darin enthaltenen Referenzen zu ziehen.

Wirtschaft

Brodeur et al. 2016 (der Link führt zum Preprint 2013) machen das Gleiche für die Wirtschaftsliteratur. Der Blick auf die drei Wirtschaftsjournale extrahiert 50.000 Testergebnisse, konvertiert sie alle in Punkte (wobei gemeldete Koeffizienten und Standardfehler nach Möglichkeit und Werte verwendet werden, wenn sie nur gemeldet wurden) und liefert Folgendes:zp

Brodeur

Dies ist etwas verwirrend, da sich kleine Werte rechts und große Werte links befinden. Wie die Autoren in der Zusammenfassung schreiben, "weist die Verteilung der p-Werte eine Kamelform mit häufigen p-Werten über 0,25 auf" und "ein Tal zwischen 0,25 und 0,10". Sie argumentieren, dass dieses Tal ein Zeichen für etwas Fischiges ist, aber dies ist nur ein indirekter Beweis. Es kann auch einfach an einer selektiven Berichterstattung liegen, wenn große p-Werte über 0,25 als Anzeichen für einen Mangel an Wirkung gemeldet werden, aber p-Werte zwischen 0,1 und 0,25 weder hier noch da sind und dazu neigen weggelassen werden. (Ich bin mir nicht sicher, ob dieser Effekt in der biologischen Literatur vorhanden ist oder nicht, da sich die obigen Darstellungen auf das Intervall .)ppp < 0,05p<0.05


Falsch beruhigend?

Basierend auf all dem oben Gesagten ist meine Schlussfolgerung, dass ich keinen starken Hinweis auf Hacking in Werteverteilungen in der gesamten biologischen / psychologischen Literatur sehe . Es gibt viele Beweise für selektive Berichterstattung ist, Publikations - Bias, Runden -Werten nach unten auf und andere lustige Rundungseffekte, aber ich stimme nicht mit Schlussfolgerungen des Leiters et al .: dort unten keine verdächtige Beule ist .ppp0,05 0,050.050.05

Uri Simonsohn argumentiert, dass dies "fälschlicherweise beruhigend" sei . Eigentlich zitiert er diese Artikel unkritisch, merkt dann aber an, dass "die meisten p-Werte viel kleiner sind als 0,05". Dann sagt er: "Das ist beruhigend, aber falsch beruhigend". Und hier ist warum:

Wenn wir wissen wollen, ob Forscher ihre Ergebnisse p-hacken, müssen wir die mit ihren Ergebnissen verbundenen p-Werte untersuchen, die sie vielleicht zuerst p-hacken möchten. Um unvoreingenommen zu sein, dürfen die Proben nur Beobachtungen der interessierenden Bevölkerung enthalten.

Die meisten in den meisten Veröffentlichungen angegebenen p-Werte sind für das strategische Verhalten von Interesse irrelevant. Kovariaten, Manipulationsprüfungen, Haupteffekte bei Studien zum Testen von Interaktionen usw. Einschließlich dieser werden P-Hacking unterschätzt und der Beweiswert von Daten überschätzt. Die Analyse aller p-Werte stellt eine andere, eine weniger sinnvolle Frage. Anstatt "P-Hack Forscher, was sie studieren?", Fragen wir "P-Hack Forscher, was sie studieren?"

Das macht total Sinn. Das Betrachten aller gemeldeten Werte ist viel zu laut. Uris Kurve ( Simonsohn et al. 2013 ) zeigt auf anschauliche Weise, was man sehen kann, wenn man sorgfältig ausgewählte Werte betrachtet. Sie wählten 20 Psychologiepapiere basierend auf einigen verdächtigen Schlüsselwörtern aus (die Autoren dieser Papiere berichteten über Tests, die eine Kovariate kontrollierten, und berichteten nicht darüber, was passiert, ohne sie zu kontrollieren) und nahmen dann nur Werte, die die wichtigsten Ergebnisse testeten. So sieht die Distribution aus (links):ppp ppp

Simonsohn

Starker linker Versatz deutet auf starkes Hacking hin.p

Schlussfolgerungen

Ich würde sagen, dass wir wissen, dass es eine Menge Hacking geben muss , hauptsächlich vom Typ Forking-Paths, den Gelman beschreibt. wahrscheinlich in dem Maße, in dem veröffentlichte Werte nicht wirklich zum Nennwert genommen werden können und vom Leser um einen wesentlichen Bruchteil "abgezinst" werden sollten. Diese Einstellung scheint jedoch weitaus subtilere Auswirkungen zu haben als nur eine Beule in der gesamten Werteverteilung knapp unter und kann mit einer solchen stumpfen Analyse nicht wirklich erkannt werden.ppp 0,05 p0.05

Amöbe
quelle
4
simply because the researches chose what test to perform/report after looking at the dataJa; und das Problem ist unvermeidlich, weil zweischneidig. Wenn für die Daten eine bessere Methode gewählt wird - handelt es sich um eine Überanpassung dieser spezifischen Stichprobe oder um ein Treffen der technischen Aufrufe dieser Population? Oder - um Ausreißer zu entfernen - täuscht es die Bevölkerung vor oder stellt es wieder her? Wer wird es letztendlich sagen?
TTNPHNS
Die Art der Antwort, auf die ich am meisten gehofft hatte, war vielleicht eine kurze Darstellung der aktuellen Literatur, einige Hinweise darauf, ob die Abhandlung von Head et al. Eine angemessene Zusammenfassung der neuesten Überlegungen ist usw. Ich hatte diese Antwort überhaupt nicht erwartet. Aber ich finde es großartig und Gelmans Gedanken und die praktischen Einsichten sind besonders hilfreich. Als ich die Frage schrieb, hatte ich ähnliche Dinge im Sinn wie @ttnphns (vielleicht zeigt es, dass ich sogar überlegt habe, das Wort "Überanpassung" aufzunehmen.)
Silverfish
Abgesehen von dem allgemeinen und unvermeidlichen Unbehagen, "wie Wissenschaft in der Praxis funktioniert", das den Annahmen statistischer Tests nicht gerecht wird, frage ich mich jedoch, ob dieser Trottel "dunkle Kunst der böswilligen P-Hacker" wirklich da draußen ist, und wenn ja, wie weit es reicht. Es gibt definitiv starke (falsche) Anreize, dies zu fördern.
Silverfish
2
Sie haben mich neugierig gemacht mit diesem Head et al. Papier, @Silverfish, also muss ich jetzt gestehen, dass ich, anstatt zu arbeiten, in einigen Papieren stöbere, die die Ergebnisse von Head et al. kritisieren, und ihre Rohdaten sogar schon heruntergeladen habe ... Oh mein Gott.
Amöbe
2
+1. Der neueste Gelman-Blog-Artikel ( andrewgelman.com/2016/03/09/… ) befasst sich ausführlich mit einer interessanten Gegenerwiderung einer Gruppe, die versucht hat, Replikationen vorzunehmen , und die dann von den Autoren der Originalstudie heftig kritisiert wurde: retractionwatch.com/ 2016/03/07 /…
Wayne
22

Trichterdiagramme waren eine enorme statistische Innovation, die die Metaanalyse auf den Kopf gestellt hat. Grundsätzlich zeigt ein Trichterdiagramm die klinische und statistische Signifikanz auf demselben Diagramm. Idealerweise würden sie eine Trichterform bilden. Mehrere Metaanalysen haben jedoch Trichterdiagramme erstellt, die eine starke bimodale Form aufweisen. Dabei haben die Ermittler (oder Herausgeber) selektiv Ergebnisse zurückgehalten, die null waren. Das Ergebnis ist, dass das Dreieck breiter wird, da kleinere Studien mit geringerer Leistung drastischere Methoden verwendeten, um die statistische Signifikanz der Ergebnisse zu fördern. Das Cochrane Report-Team hat dies über sie zu sagen .

Wenn Verzerrungen vorliegen, z. B. weil kleinere Studien ohne statistisch signifikante Auswirkungen (in Abbildung 10.4.a, Tafel A als offene Kreise dargestellt) nicht veröffentlicht wurden, führt dies zu einem asymmetrischen Erscheinungsbild des Trichterplots mit einer Lücke in der unteren Ecke von die Grafik (Panel B). In dieser Situation wird der in einer Metaanalyse berechnete Effekt den Interventionseffekt tendenziell überschätzen (Egger 1997a, Villar 1997). Je ausgeprägter die Asymmetrie ist, desto wahrscheinlicher ist es, dass die Verzerrung erheblich ist.

Der erste Plot zeigt einen symmetrischen Plot ohne Verzerrung. Die zweite zeigt eine asymmetrische Darstellung bei Vorliegen einer Berichterstellungsverzerrung. Das dritte Diagramm zeigt eine asymmetrische Darstellung bei Vorliegen einer Verzerrung, da einige kleinere Studien (offene Kreise) von geringerer methodischer Qualität sind und daher übertriebene Schätzungen der Interventionseffekte liefern.

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben

Ich vermute, die meisten Autoren kennen die Methoden, mit denen sie p-hacken, nicht. Sie behalten nicht die Gesamtzahl der Modelle im Auge, wenden unterschiedliche Ausschlusskriterien an oder entscheiden sich jedes Mal für unterschiedliche Anpassungsvariablen. Wenn ich jedoch ein einfaches Verfahren vorschreiben müsste, würde ich gerne sehen, ob die Gesamtzahl der Modelle passt. Das heißt nicht, dass es legitime Gründe für die erneute Ausführung von Modellen geben könnte. Beispielsweise haben wir gerade eine Alzheimer-Analyse durchgeführt, ohne zu wissen, dass ApoE in der Probe gesammelt wurde. Ei auf meinem Gesicht, wir reranieren die Modelle.

AdamO
quelle
4
Ich finde es gut, dass Sie betonen, dass "Ermittler (oder Herausgeber) selektiv Ergebnisse zurückgehalten haben, die null waren". Da nicht die Null ablehnen keine Veröffentlichung, ist der Fehler nicht unbedingt direkt auf die Ermittler.
Cliff AB
2
Ein Aspekt meiner Frage war die Unterscheidung zwischen "p-Hacking" und "Publikationsbias" - diese Antwort verbindet in gewisser Weise die beiden. Würde ich richtig interpretieren, was Sie auf diese Weise sagen, dh "Publikationsbias ist im Wesentlichen eine Form von P-Hacking, aber vom Verlag"?
Silverfish
1
@Silverfish Publikationsbias können laut dem vorherigen Kommentar entweder von den Autoren oder den Herausgebern bestimmt werden. Aber ja, es ist definitiv Hacking. Trichterdiagramme wurden möglicherweise auf veröffentlichte Forschungsergebnisse angewendet, sind jedoch in allen Situationen anwendbar, in denen bei der "wissenschaftlichen Replikation" Unstimmigkeiten auftreten. Unabhängig davon, ob es sich um Bestätigungsversuche für Medikamente oder um die Umsetzung von Geschäftsrichtlinien in einer Reihe von Zentren oder Großhändlern handelt. Wann immer Sie sich mit Replikationen befassen, kann ein Trichterdiagramm Hinweise auf Hacking liefern, indem Lücken angezeigt werden, in denen Nullergebnisse hätten fallen sollen. ppp
AdamO
2
Hmm. Zuerst wollte ich protestieren und behaupten, dass Publikationsbias anders ist als P-Hacking (ähnlich wie bei @Silverfish), aber dann wurde mir klar, dass es schwieriger ist, die Grenze zu ziehen, als ich ursprünglich dachte. Das Durchführen von Mehrfachvergleichen im Jelly-Beans-Stil und nur das Berichten von signifikanten (p-Hacking?) Unterscheidet sich nicht wesentlich von dem Durchführen von Mehrfachstudien und nur dem Berichten von signifikanten (was per Definition eine Publikationsverzerrung darstellt). Trotzdem fühlt sich p-Hacking im Sinne eines Massierens der Daten, bis sie p <0,05 ergeben, für mich ausreichend anders an.
Amöbe
2
@amoeba Ich hatte das gleiche Problem, aber nachdem ich die Frage von OP gelesen hatte, wurde mir klar, dass es die Konsequenzen von Hacking für das "Wurstende der Dinge" betraf . Die meisten Hacking-Methoden werden in der Regel nicht gemeldet. Wie können wir also die Unterschiede in Einklang bringen, wenn wir blind sind für das, was der Statistiker tut? Nun, wir brauchen unabhängige Versuche, die Ergebnisse zu replizieren und zu bestätigen. ppp
AdamO