Der Ausdruck p- Hacking (auch: " Datenbaggern " , "Schnüffeln" oder "Fischen") bezieht sich auf verschiedene Arten statistischer Verfehlungen, bei denen Ergebnisse künstlich statistisch signifikant werden. Es gibt viele Möglichkeiten, ein "signifikanteres" Ergebnis zu erzielen, unter anderem:
- nur Analysieren einer "interessanten" Teilmenge der Daten , in denen ein Muster gefunden wurde;
- Nicht ordnungsgemäße Anpassung für Mehrfachtests , insbesondere Post-hoc-Tests, und Nichtmeldung von nicht signifikanten Tests;
- Probieren Sie verschiedene Tests derselben Hypothese aus , z. B. sowohl einen parametrischen als auch einen nicht parametrischen Test ( in diesem Thread wird dies teilweise erörtert ), geben Sie jedoch nur den wichtigsten an.
- Experimentieren mit Einschluss / Ausschluss von Datenpunkten , bis das gewünschte Ergebnis erzielt wird. Eine Möglichkeit bietet sich, wenn "Datenausreißer" bereinigt werden, aber auch wenn eine mehrdeutige Definition (z. B. in einer ökonometrischen Studie zu "Industrieländern"), unterschiedliche Definitionen unterschiedliche Ländergruppen ergeben oder qualitative Einschlusskriterien (z. B. in einer Metaanalyse) angewendet werden kann es ein sehr ausgewogenes Argument sein, ob die Methodik einer bestimmten Studie robust genug ist, um zu berücksichtigen);
- Das vorherige Beispiel bezieht sich auf das optionale Stoppen , dh das Analysieren eines Datensatzes und die Entscheidung, ob weitere Daten gesammelt werden sollen oder nicht, abhängig von den bisher gesammelten Daten ("Dies ist beinahe bedeutsam, messen wir drei weitere Schüler!"), ohne dies zu berücksichtigen in der Analyse;
- Experimentieren während der Modellanpassung , insbesondere unter Einbeziehung von Kovariaten, aber auch unter Berücksichtigung von Datentransformationen / funktionaler Form.
Wir wissen also, dass P- Hacking durchgeführt werden kann. Es wird oft als eine der "Gefahren des p- Wertes" aufgeführt und wurde in dem ASA-Bericht über statistische Signifikanz erwähnt, der hier auf Cross Validated diskutiert wurde , sodass wir auch wissen, dass es eine schlechte Sache ist. Obwohl einige zweifelhafte Motivationen und (insbesondere im Wettbewerb um wissenschaftliche Veröffentlichungen) kontraproduktive Anreize offensichtlich sind, ist es meines Erachtens schwer herauszufinden, warum dies getan wird, ob vorsätzliches Fehlverhalten oder einfache Ignoranz. Jemand, der p- Werte aus einer schrittweisen Regression meldet (weil er feststellt, dass schrittweise Prozeduren "gute Modelle erzeugen", aber das behauptete p nicht kennt)-Werte sind ungültig) ist im letzteren Lager, aber der Effekt ist immer noch p -hacking unter dem letzten meiner Aufzählungspunkte oben.
Es gibt sicherlich Hinweise darauf, dass p- Hacking "out there" ist, z. B. suchen Head et al. (2015) nach verräterischen Hinweisen, die die wissenschaftliche Literatur infizieren, aber wie ist der aktuelle Stand unserer Evidenzbasis dazu? Mir ist bewusst, dass der Ansatz von Head et al. Nicht unumstritten war. Daher wäre der aktuelle Stand der Literatur oder das allgemeine Denken in der akademischen Gemeinschaft interessant. Haben wir zum Beispiel eine Vorstellung von:
- Wie häufig ist es und inwieweit können wir sein Auftreten von Publikationsbias unterscheiden ? (Ist diese Unterscheidung überhaupt sinnvoll?)
- Ist der Effekt an der Grenze von ? Werden ähnliche Effekte zum Beispiel bei , oder sehen wir ganze Bereiche von p- Werten betroffen?p ≤ 0,01
- Unterscheiden sich die Muster beim P- Hacking zwischen den akademischen Bereichen?
- Haben wir eine Vorstellung davon, welche der Mechanismen des P- Hacking (von denen einige in den obigen Aufzählungspunkten aufgeführt sind) am häufigsten sind? Haben sich einige Formen als schwerer zu erkennen erwiesen als andere, weil sie "besser getarnt" sind?
Verweise
Kopf, ML, Holman, L., Lanfear, R., Kahn, AT & Jennions, MD (2015). Das Ausmaß und die Folgen von P- Hacking in der Wissenschaft . PLoS Biol , 13 (3), e1002106.
quelle
Antworten:
ZUSAMMENFASSUNG: Wenn "P-Hacking" allgemein als "forking path" von a la Gelman verstanden werden soll, lautet die Antwort auf seine Verbreitung, dass es nahezu universell ist.
Andrew Gelman schreibt gerne über dieses Thema und hat in letzter Zeit ausführlich darüber in seinem Blog geschrieben. Ich stimme ihm nicht immer zu, aber ich mag seine Sicht auf Hacking. Hier ist ein Auszug aus der Einleitung zu seinem Artikel „Garden of Forking Paths“ (Gelman & Loken 2013; eine Version erschien in American Scientist 2014; siehe auch Gelmans kurzen Kommentar zur Erklärung der ASA), Schwerpunkt:p
Also: Gelman mag den Begriff P-Hacking nicht, weil er impliziert, dass die Forschungen aktiv betrogen haben. Während die Probleme einfach deshalb auftreten können, weil die Forscher nach Betrachtung der Daten, dh nach einer explorativen Analyse, auswählen, welche Tests durchgeführt / gemeldet werden sollen.
Mit einigen Erfahrungen in der Biologie kann ich mit Sicherheit sagen, dass das jeder tut. Jeder (ich eingeschlossen) sammelt einige Daten mit nur vagen A-priori-Hypothesen, führt ausführliche explorative Analysen durch, führt verschiedene Signifikanztests durch, sammelt weitere Daten, führt die Tests durch und führt sie erneut durch und meldet schließlich einige Werte im endgültigen Manuskript. All dies geschieht, ohne aktiv zu schummeln, dummes Kirschpflücken im Stil von xkcd-jelly beans zu machen oder bewusst irgendetwas zu hacken.p
Also , wenn „p-Hacking“ ist im Großen und Ganzen zu verstehen, a la Gelmans Forking Pfade, die Antwort darauf , wie weit verbreitet ist, ist , dass es fast universell ist.
Die einzigen Ausnahmen, die in den Sinn kommen, sind vollständig vorregistrierte Replikationsstudien in der Psychologie oder vollständig vorregistrierte medizinische Studien.
Spezifische Beweise
Amüsanterweise haben einige Leute Forscher befragt, um herauszufinden, dass viele zugeben, dass sie irgendeine Art von Hacking betreiben ( John et al., 2012, Messung der Häufigkeit fragwürdiger Forschungspraktiken mit Anreizen für Wahrheitsfindung ):
Ansonsten hat jeder von der sogenannten "Replikationskrise" in der Psychologie gehört: Mehr als die Hälfte der in den Top-Psychologie-Journalen veröffentlichten aktuellen Studien repliziert nicht ( Nosek et al. 2015, Schätzung der Reproduzierbarkeit der Psychologie ). (Diese Studie war in letzter Zeit wieder in allen Blogs vertreten, da in der Ausgabe von Science vom März 2016 ein Kommentar veröffentlicht wurde, der versucht, Nosek et al. Zu widerlegen, sowie eine Antwort von Nosek et al. Die Diskussion wurde an anderer Stelle fortgesetzt, siehe Beitrag von Andrew Gelman und dem RetractionWatch-Post , auf den er verlinkt. Um es höflich auszudrücken, die Kritik ist nicht überzeugend.)
Update November 2018: Kaplan und Irvin, 2017, die Wahrscheinlichkeit , dass große klinische NHLBI-Studien keine Auswirkungen haben, hat im Laufe der Zeit zugenommen. Dies zeigt, dass der Anteil der klinischen Studien, in denen keine Ergebnisse gemeldet wurden, von 43% auf 92% gestiegen ist, nachdem eine Vorregistrierung erforderlich wurde:
Head et al. 2015
Von Head et al. Habe ich noch nichts gehört . studieren Sie vorher, aber haben Sie jetzt einige Zeit aufgewendet, die umgebende Literatur durchzublättern. Ich habe auch einen kurzen Blick auf ihre Rohdaten geworfen .
Head et al. lud alle Open-Access-Papiere von PubMed herunter und extrahierte alle im Text angegebenen p-Werte, wobei 2,7 Mio. p-Werte erhalten wurden. Von diesen wurden 1,1 Mio. als und nicht als . Von diesen haben Head et al. nahm zufällig einen p-Wert pro Papier, aber dies scheint die Verteilung nicht zu ändern. So sieht die Verteilung aller 1,1-Millionen-Werte aus (zwischen und ):p=a p<a 0 0.06
Ich habe bin width verwendet, und man kann eine Menge vorhersehbarer Rundungen in den angegebenen Werten sehen. Nun haben Head et al. Gehen Sie wie folgt vor: Sie vergleichen die Anzahl der Werte im Intervall und im Intervall . Die erstere Zahl fällt (deutlich) größer aus und wird als Beweis für Hacking angesehen. Wenn man blinzelt, sieht man es an meiner Figur.0.0001 p p (0.045,0.5) (0.04,0.045) p
Ich finde das aus einem einfachen Grund sehr wenig überzeugend. Wer möchte seine Befunde mit melden ? Tatsächlich scheinen viele Menschen genau das zu tun, aber es erscheint dennoch naheliegend, diesen unbefriedigenden Grenzwert zu vermeiden und stattdessen eine andere signifikante Ziffer zu melden, z. B. (es sei denn natürlich, es ist ). Ein gewisser Überschuss an Werten, der nahe bei kann also durch die Rundungspräferenzen des Forschers erklärt werden.p=0.05 p=0.048 p=0.052 p 0.05
Und abgesehen davon ist der Effekt winzig .
(Der einzige starke Effekt, den ich auf diese Abbildung sehe, ist ein deutlicher Abfall der Wert-Dichte unmittelbar nach . Dies ist eindeutig auf die Publikationsverzerrung zurückzuführen.)p 0.05
Sofern ich nichts verpasst habe, haben Head et al. Diskutieren Sie nicht einmal diese mögliche alternative Erklärung. Sie zeigen auch kein Histogramm der Werte.p
Es gibt eine Reihe von Zeitungen, die Head et al. Kritisieren. In diesem unveröffentlichten Manuskript argumentiert Hartgerink, dass Head et al. hätte und in ihren Vergleich einbeziehen sollen (und wenn sie dies getan hätten, hätten sie ihre Wirkung nicht gefunden). Ich bin mir darüber nicht sicher; es klingt nicht sehr überzeugend. Es wäre viel besser, wenn wir die Verteilung der "rohen" Werte irgendwie ohne Rundung untersuchen könnten.p=0.04 p=0.05 p
Verteilungen von Werten ohne Rundungp
In diesem PeerJ-Papier von 2016 (Preprint 2015) haben Hartgerink et al. extrahiert p-Werte von den vielen Papieren in Top-Psychologie Zeitschriften und genau das tun: sie neu berechnen genaue - Werte aus der ausgewiesenen -, -, - usw. Statistikwerte; Diese Verteilung ist frei von Rundungsartefakten und weist keinerlei Anstieg in Richtung 0,05 auf (Abbildung 4):p t F χ2
Ein sehr ähnlicher Ansatz wird von Krawczyk 2015 in PLoS One verfolgt, der 135.000 Werte aus den führenden experimentellen Psychologie-Journalen extrahiert . So sieht die Verteilung für die angegebenen (links) und neu berechneten (rechts) Werte aus:p p
Der Unterschied ist auffällig. Das linke Histogramm zeigt einige seltsame Dinge, die um , aber auf dem rechten ist es weg. Dies bedeutet, dass dieses seltsame Zeug auf die Präferenzen der Leute zurückzuführen ist, Werte um zu melden und nicht auf Hacking.p=0.05 p≈0.05 p
Mascicampo und Lalande
Es scheint, dass die ersten, die den angeblichen Überschuss an Werten knapp unter 0,05 beobachteten, Masicampo & Lalande 2012 waren , das drei Top-Zeitschriften in der Psychologie ansah :p
Das sieht zwar beeindruckend aus, aber Lakens 2015 ( Preprint ) argumentiert in einem veröffentlichten Kommentar, dass dies nur dank der irreführenden exponentiellen Anpassung beeindruckend erscheint . Siehe auch Lakens 2015, Zu den Herausforderungen, Schlussfolgerungen aus p-Werten knapp unter 0,05 und den darin enthaltenen Referenzen zu ziehen.
Wirtschaft
Brodeur et al. 2016 (der Link führt zum Preprint 2013) machen das Gleiche für die Wirtschaftsliteratur. Der Blick auf die drei Wirtschaftsjournale extrahiert 50.000 Testergebnisse, konvertiert sie alle in Punkte (wobei gemeldete Koeffizienten und Standardfehler nach Möglichkeit und Werte verwendet werden, wenn sie nur gemeldet wurden) und liefert Folgendes:z p
Dies ist etwas verwirrend, da sich kleine Werte rechts und große Werte links befinden. Wie die Autoren in der Zusammenfassung schreiben, "weist die Verteilung der p-Werte eine Kamelform mit häufigen p-Werten über 0,25 auf" und "ein Tal zwischen 0,25 und 0,10". Sie argumentieren, dass dieses Tal ein Zeichen für etwas Fischiges ist, aber dies ist nur ein indirekter Beweis. Es kann auch einfach an einer selektiven Berichterstattung liegen, wenn große p-Werte über 0,25 als Anzeichen für einen Mangel an Wirkung gemeldet werden, aber p-Werte zwischen 0,1 und 0,25 weder hier noch da sind und dazu neigen weggelassen werden. (Ich bin mir nicht sicher, ob dieser Effekt in der biologischen Literatur vorhanden ist oder nicht, da sich die obigen Darstellungen auf das Intervall .)p p p < 0,05p<0.05
Falsch beruhigend?
Basierend auf all dem oben Gesagten ist meine Schlussfolgerung, dass ich keinen starken Hinweis auf Hacking in Werteverteilungen in der gesamten biologischen / psychologischen Literatur sehe . Es gibt viele Beweise für selektive Berichterstattung ist, Publikations - Bias, Runden -Werten nach unten auf und andere lustige Rundungseffekte, aber ich stimme nicht mit Schlussfolgerungen des Leiters et al .: dort unten keine verdächtige Beule ist .p p p 0,05 0,050.05 0.05
Uri Simonsohn argumentiert, dass dies "fälschlicherweise beruhigend" sei . Eigentlich zitiert er diese Artikel unkritisch, merkt dann aber an, dass "die meisten p-Werte viel kleiner sind als 0,05". Dann sagt er: "Das ist beruhigend, aber falsch beruhigend". Und hier ist warum:
Das macht total Sinn. Das Betrachten aller gemeldeten Werte ist viel zu laut. Uris Kurve ( Simonsohn et al. 2013 ) zeigt auf anschauliche Weise, was man sehen kann, wenn man sorgfältig ausgewählte Werte betrachtet. Sie wählten 20 Psychologiepapiere basierend auf einigen verdächtigen Schlüsselwörtern aus (die Autoren dieser Papiere berichteten über Tests, die eine Kovariate kontrollierten, und berichteten nicht darüber, was passiert, ohne sie zu kontrollieren) und nahmen dann nur Werte, die die wichtigsten Ergebnisse testeten. So sieht die Distribution aus (links):p p p pp p
Starker linker Versatz deutet auf starkes Hacking hin.p
Schlussfolgerungen
Ich würde sagen, dass wir wissen, dass es eine Menge Hacking geben muss , hauptsächlich vom Typ Forking-Paths, den Gelman beschreibt. wahrscheinlich in dem Maße, in dem veröffentlichte Werte nicht wirklich zum Nennwert genommen werden können und vom Leser um einen wesentlichen Bruchteil "abgezinst" werden sollten. Diese Einstellung scheint jedoch weitaus subtilere Auswirkungen zu haben als nur eine Beule in der gesamten Werteverteilung knapp unter und kann mit einer solchen stumpfen Analyse nicht wirklich erkannt werden.p p p 0,05 p 0.05
quelle
simply because the researches chose what test to perform/report after looking at the data
Ja; und das Problem ist unvermeidlich, weil zweischneidig. Wenn für die Daten eine bessere Methode gewählt wird - handelt es sich um eine Überanpassung dieser spezifischen Stichprobe oder um ein Treffen der technischen Aufrufe dieser Population? Oder - um Ausreißer zu entfernen - täuscht es die Bevölkerung vor oder stellt es wieder her? Wer wird es letztendlich sagen?Trichterdiagramme waren eine enorme statistische Innovation, die die Metaanalyse auf den Kopf gestellt hat. Grundsätzlich zeigt ein Trichterdiagramm die klinische und statistische Signifikanz auf demselben Diagramm. Idealerweise würden sie eine Trichterform bilden. Mehrere Metaanalysen haben jedoch Trichterdiagramme erstellt, die eine starke bimodale Form aufweisen. Dabei haben die Ermittler (oder Herausgeber) selektiv Ergebnisse zurückgehalten, die null waren. Das Ergebnis ist, dass das Dreieck breiter wird, da kleinere Studien mit geringerer Leistung drastischere Methoden verwendeten, um die statistische Signifikanz der Ergebnisse zu fördern. Das Cochrane Report-Team hat dies über sie zu sagen .
Der erste Plot zeigt einen symmetrischen Plot ohne Verzerrung. Die zweite zeigt eine asymmetrische Darstellung bei Vorliegen einer Berichterstellungsverzerrung. Das dritte Diagramm zeigt eine asymmetrische Darstellung bei Vorliegen einer Verzerrung, da einige kleinere Studien (offene Kreise) von geringerer methodischer Qualität sind und daher übertriebene Schätzungen der Interventionseffekte liefern.
Ich vermute, die meisten Autoren kennen die Methoden, mit denen sie p-hacken, nicht. Sie behalten nicht die Gesamtzahl der Modelle im Auge, wenden unterschiedliche Ausschlusskriterien an oder entscheiden sich jedes Mal für unterschiedliche Anpassungsvariablen. Wenn ich jedoch ein einfaches Verfahren vorschreiben müsste, würde ich gerne sehen, ob die Gesamtzahl der Modelle passt. Das heißt nicht, dass es legitime Gründe für die erneute Ausführung von Modellen geben könnte. Beispielsweise haben wir gerade eine Alzheimer-Analyse durchgeführt, ohne zu wissen, dass ApoE in der Probe gesammelt wurde. Ei auf meinem Gesicht, wir reranieren die Modelle.
quelle