In den letzten Jahren haben verschiedene Wissenschaftler ein nachteiliges Problem beim Testen wissenschaftlicher Hypothesen angesprochen, das als "Freiheitsgrad der Forscher" bezeichnet wird. Dies bedeutet, dass Wissenschaftler während ihrer Analyse zahlreiche Entscheidungen treffen müssen, die darauf abzielen, mit einem p-Wert <5% zu finden. Diese zweideutigen Entscheidungen sind zum Beispiel, welcher Fall aufgenommen werden soll, welcher Fall als Ausreißer eingestuft wird, zahlreiche Modellspezifikationen ausführen, bis etwas auftaucht, keine Nullergebnisse veröffentlichen usw. (Das Papier, das diese Debatte in der Psychologie ausgelöst hat , ist hier , sieht einen beliebten Slate Artikel und Follow-up - Debatte von Andrew Gelman hier , und das Time - Magazin berührt auch zu diesem Thema hier .)
Zunächst eine Klärungsfrage:
Das Time Magazine schrieb:
"Eine Potenz von 0,8 bedeutet, dass von zehn getesteten echten Hypothesen nur zwei ausgeschlossen werden, da ihre Auswirkungen nicht in den Daten erfasst werden."
Ich bin nicht sicher, wie dies in die Definition der Potenzfunktion passt, die ich im Lehrbuch gefunden habe. Dies ist die Wahrscheinlichkeit, die Null als Funktion des Parameters abzulehnen . Mit unterschiedlichem θ haben wir unterschiedliche Potenzen, daher verstehe ich das obige Zitat nicht ganz.
Zweitens einige Auswirkungen auf die Forschung:
In meinem Bereich Politikwissenschaft / Wirtschaft nutzen Wissenschaftler einfach alle verfügbaren Länderjahresdaten. Sollten wir uns hier also nicht mit Probenfummeln befassen?
Kann das Problem, mehrere Tests durchzuführen, aber nur ein Modell zu melden, einfach dadurch behoben werden, dass jemand anderes in der Disziplin Ihr Papier erneut testet und Sie sofort niederschlägt, weil Sie keine soliden Ergebnisse erzielen? In Erwartung dessen schließen Wissenschaftler in meinem Bereich eher einen
robustness check
Abschnitt ein, in dem sie zeigen, dass mehrere Modellspezifikationen das Ergebnis nicht ändern. Ist das ausreichendAndrew Gelman und andere weisen darauf hin, dass es unabhängig von den Daten immer möglich wäre, ein "Muster" zu finden und zu veröffentlichen, das nicht wirklich vorhanden ist. Dies sollte jedoch kein Problem sein, da jedes empirische "Muster" durch eine Theorie gestützt werden muss und rivalisierende Theorien innerhalb einer Disziplin nur eine Debatte / ein Rennen führen, um herauszufinden, welches Lager mehr "Muster" finden kann. an verschiedenen Orten. Wenn ein Muster wirklich falsch ist, wird die dahinter stehende Theorie schnell niedergeschlagen, wenn es in anderen Samples / Einstellungen kein ähnliches Muster gibt. Geht die Wissenschaft nicht so voran?
Unter der Annahme, dass der aktuelle Trend der Zeitschriften für Nullergebnisse tatsächlich florieren wird, gibt es eine Möglichkeit für uns, alle Nullergebnisse und positiven Ergebnisse zusammenzufassen und auf die Theorie zu schließen, die alle zu testen versuchen?
Antworten:
Anstatt p-Werte zur Bewertung von Behauptungen zu verwenden, sollten wir den Ratschlägen von Robert Abelson folgen und die MAGIC-Kriterien verwenden:
Weitere Informationen zu Abelson finden Sie in meiner Rezension seines Buches
Und wir sollten uns auf Effektgrößen konzentrieren, nicht auf p-Werte in der statistischen Ausgabe (mit der möglichen Ausnahme einiger Arten von Data Mining, für die ich überhaupt kein Experte bin). Und Effektgrößen sind im Kontext zu beurteilen:
Ein Statistiker / Datenanalyst sollte keine seltsame Person sein, die wie eine Black Box verwendet wird, in die Daten eingegeben und aus der p-Werte abgerufen werden. er / sie sollte ein Mitarbeiter in der Forschung sein, der angesichts der aktuellen Theorien (oder ihres Mangels) und der aktuellen Beweise (oder des Fehlens derselben) ein vernünftiges Argument für die Bedeutung eines Datensatzes im Kontext eines bestimmten Bereichs liefern soll.
Leider erfordert dieser Ansatz Überlegungen seitens der inhaltlichen Forscher, des Datenanalysten und derjenigen, die die Ergebnisse überprüfen (sei es ein spitzer Chef, ein Dissertationskomitee, ein Journaleditor oder wer auch immer). Seltsamerweise scheinen sogar Akademiker dieser Art von Gedanken abgeneigt zu sein.
Um mehr über meine Ansichten zu erfahren, hier ein Artikel, den ich geschrieben habe und der in Sciences360 veröffentlicht wurde.
quelle
Das Gebiet der statistischen Wissenschaft hat sich von Anfang an mit diesen Fragen befasst. Ich sage immer wieder, die Rolle des Statistikers besteht darin, sicherzustellen, dass die Fehlerrate vom Typ 1 fest bleibt. Dies impliziert, dass das Risiko falsch positiver Schlussfolgerungen nicht beseitigt, sondern kontrolliert werden kann. Dies sollte unsere Aufmerksamkeit auf das extrem große Volumen wissenschaftlicher Forschung lenken, das durchgeführt wird, und nicht auf die Philosophie und Ethik der allgemeinen statistischen Praxis. Für jedes unglaubliche (unglaubliche) Ergebnis, das in den Medien (oder in der Regierungspolitik) auftaucht, wurden mindestens 19 andere unglaubliche Ergebnisse wegen ihrer Nullbefunde abgeschossen.
Wenn Sie beispielsweise zu clinicaltrials.gov gehen, werden Sie feststellen, dass in den USA derzeit (für fast jede Krankheitsindikation) weit über 1.000 klinische Studien für Arzneimittel durchgeführt werden. Das bedeutet, dass bei einer falsch positiven Fehlerrate von 0,001 durchschnittlich mindestens 1 Medikament in die Regale gestellt wird, das keine Wirkung hat. Die Gültigkeit von 0,05 als validierter Schwellenwert für die statistische Signifikanz wurde immer wieder in Frage gestellt. Ironischerweise fühlen sich nur die Statistiker mit der Verwendung einer falsch-positiven Fehlerrate von 1/20 unwohl, während Finanzakteure (seien es PIs oder Merck) hartnäckig Überzeugungen verfolgen, unabhängig von In-vitro-Ergebnissen, theoretischen Beweisen oder der Stärke früherer Beweise. Ehrlich, Diese Hartnäckigkeit ist eine erfolgreiche und lobenswerte persönliche Eigenschaft vieler Personen, die in nicht statistischen Rollen erfolgreich sind. Sie sitzen in der Regel über Statistikern in ihren jeweiligen Totems, die dazu neigen, diese Hartnäckigkeit zu nutzen.
Ich denke, das von Ihnen vorgebrachte Zeitzitat ist völlig falsch. Macht ist die Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn sie falsch ist. Dies hängt vor allem davon ab, wie "falsch" die Nullhypothese ist (was wiederum von einer messbaren Effektgröße abhängt). Ich spreche selten von Macht aus dem Kontext des Effekts, den wir als "interessant" erachten würden. (Zum Beispiel ist ein 4-monatiges Überleben nach einer chemotherapeutischen Behandlung von Bauchspeicheldrüsenkrebs im Stadium 4 nicht interessant, daher gibt es keinen Grund, 5.000 Personen für eine Phase-3-Studie zu rekrutieren.)
Um die Fragen zu beantworten, die Sie gestellt haben
???
Die Multiplizität ist schwierig, da sie nicht zu einer offensichtlichen Entscheidungsregel für den Umgang mit den Daten führt. Nehmen wir zum Beispiel an, wir interessieren uns für einen einfachen Test der mittleren Differenz. Trotz der unendlichen Proteste meiner Kollegen ist es leicht zu zeigen, dass ein T-Test gut kalibriert ist, um Unterschiede im Mittelwert unabhängig von der Stichprobenverteilung der Daten festzustellen. Nehmen wir an, wir verfolgen abwechselnd ihren Weg. Sie würden mit dem Testen der Normalität unter Verwendung einer Variante eines bekannten Verteilungstests beginnen (z. B. Kalibrierung des qqplot). Wenn die Daten ausreichend nicht normal erschienen, würden sie fragen, ob die Daten einer bekannten Transformation folgen, und dann eine Box Cox-Transformation anwenden, um eine Leistungstransformation (möglicherweise logarithmisch) zu bestimmen, die die Entropie maximiert. Wenn ein offensichtlicher numerischer Wert herausspringt, Sie werden diese Transformation nutzen. Wenn nicht, verwenden sie den "verteilungsfreien" Wilcoxon-Test. Für diese Ad-hoc-Abfolge von Ereignissen kann ich nicht hoffen, wie man die Kalibrierung und Leistung für einen einfachen Test der mittleren Unterschiede berechnet, wenn der einfache, dumme T-Test ausgereicht hätte. Ich vermute, dass solche dummen Handlungen mathematisch mit Hodges übereffizienter Schätzung verknüpft werden können: Schätzer, die unter einer bestimmten Hypothese, die wir wahr sein wollen, eine hohe Leistung haben. Trotzdem ist dieser Prozess s supereffiziente Schätzung: Schätzer, die unter einer bestimmten Hypothese eine hohe Leistung haben, wollen wahr sein. Trotzdem ist dieser Prozess s supereffiziente Schätzung: Schätzer, die unter einer bestimmten Hypothese eine hohe Leistung haben, wollen wahr sein. Trotzdem ist dieser Prozessnicht statistisch, da die falsch positive Fehlerrate nicht kontrolliert wurde.
Das Konzept, dass Trends in zufälligen Daten fälschlicherweise "entdeckt" werden können, geht wahrscheinlich auf den gut geschriebenen Artikel von Martin mit dem Titel "Munchaesen's Statistical Grid" zurück . Dies ist eine sehr aufschlussreiche Lektüre und stammt aus dem Jahr 1984, bevor uns das goldene Kalb des maschinellen Lernens geboren wurde, wie wir es derzeit kennen. In der Tat ist eine korrekt formulierte Hypothese fälschbar, aber Typ-1-Fehler sind in unserer datengetriebenen Gesellschaft viel teurer geworden als je zuvor. Betrachten Sie zum Beispiel die gefälschten Beweise der Anti-Impfstoff-Forschung, die zu einer massiven Folge von Pertussis-Todesfällen geführt haben. Die Ergebnisse, die die öffentliche Defenestrierung von Impfstoffen verschmähten, wurden in einer einzigen Studie verknüpft(was, obwohl falsch, weder durch externe Forschung bestätigt wurde). Es gibt einen ethischen Anstoß, Ergebnisse zu erzielen und die Beweiskraft der Ehrlichkeit zu melden. Wie stark sind die Beweise? Es hat wenig mit dem p-Wert zu tun, den Sie erhalten, aber mit dem p-Wert, den Sie als signifikant bezeichnen würden. Und denken Sie daran, dass das Fudgen Ihrer Daten den Wert von p ändert, selbst wenn der letzte Bestätigungstest etwas anderes meldet (oft viel kleiner).
JA! In Metaanalysen, die von Zeitschriften wie dem Cochrane-Bericht veröffentlicht wurden, können Sie deutlich sehen, dass die Verteilung der Testergebnisse bimodaler als die von Noraml aussieht, wobei nur positive und negative Ergebnisse in Zeitschriften gelangen. Diese Beweise sind absolut verrückt und verwirrend für jeden in der klinischen Praxis. Wenn wir stattdessen Nullergebnisse veröffentlichen (die aus Studien stammen, an deren Ergebnissen wir interessiert gewesen wären, unabhängig davon, um welche es sich handelt ), können wir erwarten, dass Metaanalysen tatsächlich aussagekräftige und repräsentative Beweise darstellen.
quelle
Erstens bin ich kein Statistiker, sondern nur ein Forscher, der sich in den letzten Jahren intensiv damit befasst hat, um herauszufinden, warum die Methoden, die ich um mich herum beobachte, so mangelhaft sind und warum es so viel Verwirrung über grundlegende Konzepte wie das "Was" gibt ist ein p-Wert? " Ich werde meine Perspektive geben.
Die Leistung ist eine Funktion von θ, Varianz und Stichprobengröße. Ich bin mir nicht sicher, was die Verwirrung ist. Auch für viele Fälle, in denen Signifikanztests verwendet werden, ist die Nullhypothese von Mittelwert1 = Mittelwert2 immer falsch. In diesen Fällen ist die Signifikanz nur eine Funktion der Stichprobengröße. Bitte lesen Sie Paul Meehls "Theorieprüfung in Psychologie und Physik: Ein methodisches Paradoxon". Es hat viele Dinge für mich geklärt und ich habe nie eine angemessene Antwort gesehen. Paul Meehl hat einige andere Artikel dazu, die Sie finden können, indem Sie nach seinem Namen suchen.
Wenn Sie das Simmons 2011-Papier lesen, ist dies nur eine der genannten "P-Hacking" -Techniken. Wenn es stimmt, dass es nur einen Datensatz gibt und niemand selektive Stichproben daraus auswählt, gibt es vermutlich keinen Raum für eine Erhöhung der Stichprobengröße.
Wenn die Replikation ohne Publikationsverzerrung erfolgen würde, wären keine "Journale mit dem Nullergebnis" erforderlich. Ich würde sagen, dass der Abschnitt zur Robustheitsprüfung gut zu haben ist, aber nicht ausreicht, wenn Forscher nicht veröffentlichen, was sie als Nullergebnisse betrachten. Ich würde ein Ergebnis auch nicht als robust betrachten, nur weil mehrere Analysetechniken mit denselben Daten zu demselben Ergebnis kommen. Ein robustes Ergebnis ist ein Ergebnis, das eine korrekte Vorhersage der Auswirkung / Korrelation / usw. auf neue Daten ermöglicht .
Eine Replikation erhält nicht beide Male p <0,05. Die Theorie sollte als robuster angesehen werden, wenn sie einen anderen Effekt / eine andere Korrelation / usw. vorhersagt als in der ersten Studie. Ich beziehe mich nicht auf das Vorhandensein eines Effekts oder einer Korrelation, sondern auf den genauen Wert oder einen kleinen Wertebereich im Vergleich zu einem möglichen Wertebereich. Das Vorhandensein eines erhöhten / verringerten Effekts oder einer positiven / negativen Korrelation ist zu 100% wahr, wenn die Nullhypothese falsch ist. Lesen Sie Meehl.
Die Wissenschaft kann nicht richtig funktionieren, wenn Forscher keine Nullergebnisse veröffentlichen. Nur weil das Muster in der zweiten Stichprobe / Einstellung nicht entdeckt wurde, bedeutet dies nicht, dass es unter den Bedingungen der ersten Studie nicht existiert.
Dies wäre eine Metaanalyse . Nullergebnisse haben in diesem Fall nichts Besonderes, außer dass Forscher sie nicht veröffentlichen, weil die p-Werte über dem willkürlichen Schwellenwert lagen. Bei Vorhandensein von Publikationsbias ist die Metaanalyse unzuverlässig, ebenso wie die gesamte Literatur, die unter Publikationsbias leidet. Obwohl dies nützlich sein kann, ist die Metaanalyse für die Bewertung einer Theorie weit unterlegen, als wenn diese Theorie eine genaue Vorhersage trifft, die dann getestet wird. Publikationsbias spielt bei weitem keine Rolle, solange neue Vorhersagen auftauchen und von unabhängigen Gruppen repliziert werden.
quelle
Ich würde es einfach so ausdrücken, da es beim Testen von Nullhypothesen wirklich nur um die Nullhypothese geht. Und im Allgemeinen ist die Nullhypothese normalerweise nicht von Interesse und möglicherweise nicht einmal "der Status quo" - insbesondere beim Testen von Hypothesen vom Regressionstyp. In der Sozialwissenschaft gibt es oft keinen Status quo, daher kann die Nullhypothese ziemlich willkürlich sein. Dies macht einen großen Unterschied für die Analyse, da der Ausgangspunkt undefiniert ist und verschiedene Untersuchungen mit unterschiedlichen Nullhypothesen beginnen, höchstwahrscheinlich basierend auf den verfügbaren Daten. Vergleichen Sie dies mit so etwas wie Newtons Bewegungsgesetzen - es ist sinnvoll, dies als Nullhypothese zu verwenden und von diesem Ausgangspunkt aus bessere Theorien zu finden.
Außerdem berechnen p-Werte nicht die richtige Wahrscheinlichkeit - wir möchten nichts über die Schwanzwahrscheinlichkeiten wissen, es sei denn, die alternative Hypothese ist wahrscheinlicher, wenn Sie sich weiter in die Schwänze hineinbewegen. Was Sie wirklich wollen, ist, wie gut die Theorie vorhersagt, was tatsächlich gesehen wurde. Angenommen, ich sage voraus, dass eine 50% ige Chance auf eine "leichte Dusche" besteht, und mein Konkurrent sagt voraus, dass eine 75% ige Chance besteht. Dies stellt sich als richtig heraus und wir beobachten eine leichte Dusche. Wenn Sie nun entscheiden, welche Wetterperson richtig ist, sollten Sie meiner Vorhersage keine zusätzliche Anerkennung dafür geben, dass Sie auch eine 40% ige Chance auf ein "Gewitter" haben, oder meinem Konkurrenten die Gutschrift wegnehmen, wenn Sie "Gewitter" eine 0% ige Chance geben.
Dies gilt insbesondere für das Beispiel, das Gelman kritisiert - es wurde immer nur eine Hypothese getestet, und es wurde nicht viel darüber nachgedacht, a) welche alternativen Erklärungen vorliegen (insbesondere zu Verwirrung und nicht kontrollierten Effekten), b) wie viel die Alternativen, die durch frühere Untersuchungen gestützt wurden, und vor allem: c) Welche Vorhersagen treffen sie (falls vorhanden), die sich wesentlich von der Null unterscheiden?
quelle