Meine Frage im Titel ist selbsterklärend, aber ich möchte ihr einen Kontext geben.
Die ASA veröffentlichte Anfang dieser Woche eine Erklärung „ zu p-Werten: Kontext, Prozess und Zweck “, in der verschiedene häufig vorkommende Missverständnisse des p-Werts umrissen und zur Vorsicht gedrängt wurden, ihn nicht ohne Kontext und Gedanken zu verwenden (was so gut wie gesagt werden könnte) jede statistische Methode, wirklich).
Als Antwort auf die ASA schrieb Professor Matloff einen Blog-Beitrag mit dem Titel: Nach 150 Jahren sagt die ASA Nein zu p-Werten . Dann schrieben Professor Benjamini (und ich) einen Antwortbeitrag mit dem Titel Es ist nicht die Schuld der p-Werte - Überlegungen zur jüngsten ASA-Aussage . Als Antwort darauf fragte Professor Matloff in einem Folgepost :
Was ich gerne sehen würde [...] ist - ein gutes, überzeugendes Beispiel, in dem p-Werte nützlich sind. Das muss wirklich das Endergebnis sein.
Um seine zwei Hauptargumente gegen die Nützlichkeit des Wertes zu zitieren :
Bei großen Stichproben stürzen sich Signifikanztests auf winzige, unwichtige Abweichungen von der Nullhypothese.
In der realen Welt gibt es praktisch keine Nullhypothesen, daher ist es absurd und bizarr, einen Signifikanztest für sie durchzuführen.
Ich bin sehr daran interessiert, was andere Mitglieder einer validierten Community von dieser Frage / diesen Argumenten halten und was eine gute Antwort darauf sein könnte.
quelle
Antworten:
Ich werde beide Punkte von Matloff betrachten:
Die Logik hier ist, dass, wenn jemand hoch signifikantes meldet , wir allein aus dieser Zahl nicht sagen können, ob der Effekt groß und wichtig oder irrelevant klein ist (wie es mit großem n passieren kann ). Ich finde dieses Argument seltsam und kann überhaupt keine Verbindung dazu herstellen, da ich noch nie eine Studie gesehen habe, die einen p- Wert ohne Angabe einer Effektgröße angeben würde. Studien, die ich lese, würden z. B. sagen (und normalerweise auf einer Figur zeigen), dass Gruppe A einen solchen und einen solchen Mittelwert hatte, Gruppe B einen solchen und einen solchen Mittelwert hatte und sie sich mit einem solchen und einem solchen p- Wert signifikant unterschieden . Ich kann natürlich selbst beurteilen, ob der Unterschied zwischen A und B groß oder klein ist.p=0.0001 n p p
(In den Kommentaren verwies mich @RobinEkman auf mehrere häufig zitierte Studien von Ziliak & McCloskey ( 1996 , 2004 ), in denen festgestellt wurde, dass die Mehrheit der Wirtschaftspapiere die "statistische Signifikanz" einiger Effekte trompetet, ohne die Effektgröße und -stärke zu berücksichtigen seine "praktische Bedeutung" (die, wie Z & MS argumentieren, oft winzig sein kann). Dies ist eindeutig eine schlechte Praxis. Wie @ MatteoS weiter unten erklärte, werden die Effektgrößen (Regressionsschätzungen) jedoch immer angegeben, so mein Argument.)
Diese Sorge wird auch oft geäußert, aber auch hier kann ich mich nicht wirklich darauf einlassen. Es ist wichtig zu wissen, dass Forscher ihr ad infinitum nicht erhöhen . In dem mir vertrauten Bereich der Neurowissenschaften werden Leute Experimente mit n = 20 oder vielleicht n = 50 , sagen wir Ratten, durchführen. Wenn kein Effekt zu sehen ist, ist die Schlussfolgerung, dass der Effekt nicht groß genug ist, um interessant zu sein. Niemand weiß ich würde auf die Zucht, Ausbildung, Aufnahme und opfern n = 5000 Ratten zu zeigen , dass es ist einige statistisch signifikant , aber winzige Effekt. Und wohingegen es könnten n=20 n=50 n=5000 wahr sein , dass fast keine wirklichen Auswirkungen genau Null ist , sind es ist sicherlich wahr , dass viele viele realen Effekte klein genug sind , um mit angemessener Probe nachgewiesen werden Größen , dass vernünftige Forscher tatsächlich verwenden, ihre gute Beurteilung.
(Es gibt berechtigte Bedenken, dass Stichprobengrößen häufig nicht groß genug sind und dass viele Studien nicht ausreichend unterstützt werden. Daher sollten Forscher in vielen Bereichen möglicherweise eher auf anstatt n = 20 abzielen . Unabhängig von der Stichprobengröße , begrenzt es die Effektstärke, die die Studie erkennen kann.)n=100 n=20
Darüber hinaus glaube ich nicht zuzustimmen, dass fast keine Nullhypothesen zutreffen, zumindest nicht in den experimentellen randomisierten Studien (im Gegensatz zu Beobachtungsstudien). Zwei Gründe:
Sehr oft gibt es eine Richtwirkung auf die Vorhersage, die getestet wird; Der Forscher möchte nachweisen, dass ein gewisser Effekt positiv ist . Konventionell wird dies normalerweise mit einem zweiseitigen Test unter der Annahme eines Nullpunkts H 0 : δ = 0 durchgeführt, aber tatsächlich ist dies eher ein einseitiger Test, der versucht, H 0 : δ < 0 abzulehnen . (Die Antwort von @ CliffAB, +1, macht einen verwandten Punkt.) Und das kann sicherlich wahr sein.δ>0 H0:δ=0 H0:δ<0
Selbst wenn ich über den Punkt "nil" null spreche , verstehe ich nicht, warum sie niemals wahr sind. Manche Dinge stehen einfach nicht in kausalem Zusammenhang mit anderen Dingen. Schauen Sie sich die Psychologiestudien an, die sich in den letzten Jahren nicht wiederholen konnten: Menschen, die die Zukunft spüren; Frauen, die sich beim Eisprung rot anziehen; Grundierung mit altersbezogenen Wörtern, die die Gehgeschwindigkeit beeinflussen; usw. Es kann durchaus sein, dass es hier überhaupt keine kausalen Zusammenhänge gibt und die wahren Auswirkungen daher genau null sind.H0:δ=0
Norm Matloff selbst schlägt vor , Konfidenzintervalle anstelle von Werten zu verwenden, da diese die Effektgröße anzeigen . Konfidenzintervalle sind gut, beachten Sie jedoch einen Nachteil eines Konfidenzintervalls im Vergleich zum p- Wert: Das Konfidenzintervall wird für einen bestimmten Abdeckungswert angegeben, z . B. 95 % . Wenn ich ein Konfidenzintervall von 95 % sehe , kann ich nicht sagen, wie breit ein Konfidenzintervall von 99 % wäre. Ein einzelner p- Wert kann jedoch mit jedem α verglichen werden, und verschiedene Leser können unterschiedliche Alphas berücksichtigen.p p 95% 95% 99% p α
Mit anderen Worten, ich denke, dass für jemanden, der gerne Konfidenzintervalle verwendet, ein Wert eine nützliche und aussagekräftige zusätzliche Statistik ist, die zu melden ist.p
Ich möchte ein langes Zitat über die praktische Nützlichkeit von Werten von meinem Lieblingsblogger Scott Alexander geben; Er ist kein Statistiker (er ist Psychiater), aber er hat viel Erfahrung darin, psychologische / medizinische Literatur zu lesen und die Statistiken darin zu überprüfen. Das Zitat stammt aus seinem Blogbeitrag über die Studie mit gefälschter Schokolade, die ich sehr empfehlen kann. Betonung meiner.p
quelle
Ich ärgere mich sehr über die folgenden beiden Ideen:
Es ist so ein Strohmann-Argument über p-Werte. Das grundlegende Problem, das zur Entwicklung der Statistik geführt hat, besteht darin, einen Trend zu erkennen und zu wissen, ob das, was wir sehen, zufällig ist oder einen systematischen Trend darstellt.
Es ist wahr, dass dies nicht die Stärke des Effekts angibt. Aber es sagt Ihnen die Richtung des Effekts. Stellen wir also den Karren nicht vor das Pferd. Bevor ich anfange, Schlussfolgerungen über die Stärke des Effekts zu ziehen, möchte ich sicher sein, dass ich die Richtung des Effekts richtig eingestellt habe!
Ebenso scheint mir das Argument, dass "p-Werte sich auf winzige, unwichtige Effekte stürzen", ziemlich fehlerhaft zu sein. Wenn Sie sich einen p-Wert als Maß dafür vorstellen, wie stark die Daten die Richtung Ihrer Schlussfolgerung unterstützen, möchten Sie natürlich, dass kleine Effekte aufgenommen werden, wenn die Stichprobengröße groß genug ist. Zu sagen, dass dies bedeutet, dass sie nicht nützlich sind, ist für mich sehr seltsam: Sind diese Forschungsbereiche, die unter p-Werten gelitten haben, dieselben, die über so viele Daten verfügen, dass sie die Zuverlässigkeit ihrer Schätzungen nicht beurteilen müssen? In ähnlicher Weise können Sie die Hypothesen testen, wenn Ihre Probleme wirklich darin bestehen, dass p-Werte "auf winzige Effektgrößen stürzen"H1: μd> 1 H2: μd< - 1
Um dies weiter zu veranschaulichen, nehmen wir an, wir hätten nur Konfidenzintervalle betrachtet und p-Werte verworfen. Was ist das erste, was Sie im Konfidenzintervall überprüfen würden? Ob der Effekt ausschließlich positiv (oder negativ) war, bevor die Ergebnisse zu ernst genommen wurden. Selbst ohne p-Werte würden wir daher informell Hypothesentests durchführen.
In Bezug auf die Anfrage von OP / Matloff, "Geben Sie ein überzeugendes Argument dafür, dass p-Werte signifikant besser sind", halte ich die Frage für etwas umständlich. Ich sage dies, weil es sich je nach Ihrer Ansicht automatisch selbst beantwortet ("Geben Sie mir ein konkretes Beispiel, bei dem das Testen einer Hypothese besser ist, als sie nicht zu testen"). Ein Sonderfall, den ich für nahezu unbestreitbar halte, sind jedoch RNAseq-Daten. In diesem Fall untersuchen wir in der Regel das Expressionsniveau von RNA in zwei verschiedenen Gruppen (dh erkrankte, kontrollierte) und versuchen, Gene zu finden, die in den beiden Gruppen unterschiedlich exprimiert werden. In diesem Fall ist die Effektgröße selbst nicht wirklich aussagekräftig. Dies liegt daran, dass die Expressionsniveaus verschiedener Gene so stark variieren, dass für einige Gene eine zweifach höhere Expression nichts bedeutet. Bei anderen streng regulierten Genen ist eine 1,2-fach höhere Expression tödlich. Daher ist die tatsächliche Größe der Effektgröße beim ersten Vergleich der Gruppen eigentlich ziemlich uninteressant. Aber duwirklich, möchte wirklich wissen, ob sich die Expression des Gens zwischen den Gruppen und der Richtung der Änderung ändert! Darüber hinaus ist es viel schwieriger, die Probleme mehrerer Vergleiche (für die Sie möglicherweise 20.000 Vergleiche in einem Durchgang durchführen) mit Konfidenzintervallen zu lösen, als dies bei p-Werten der Fall ist.
quelle
Vergib mir meinen Sarkasmus, aber ein offensichtliches gutes Beispiel für die Nützlichkeit von p-Werten ist die Veröffentlichung. Ich wurde von einem Experimentator angesprochen, um einen p-Wert zu erhalten. Er hatte ein Transgen in eine einzelne Pflanze eingebracht, um das Wachstum zu verbessern. Aus dieser einzigen Pflanze produzierte er mehrere Klone und wählte den größten Klon aus, ein Beispiel, bei dem die gesamte Population gezählt wird. Seiner Frage nach möchte der Rezensent einen p-Wert sehen, dass dieser Klon der größte ist. Ich erwähnte, dass in diesem Fall keine Statistik erforderlich ist, da er die gesamte Bevölkerung zur Hand hatte, aber ohne Erfolg.
Ernsthafter, meiner bescheidenen Meinung nach, aus akademischer Sicht finde ich diese Diskussion interessant und anregend, genau wie die Debatten zwischen Frequentisten und Bayesianern vor ein paar Jahren. Es zeigt die unterschiedlichen Perspektiven der besten Köpfe auf diesem Gebiet auf und beleuchtet die vielen Annahmen / Fallstricke, die mit der im Allgemeinen nicht leicht zugänglichen Methodik verbunden sind.
In der Praxis denke ich, dass es für mich eher eine Enthüllung eines zugrunde liegenden systemischen Problems ist, als über den besten Ansatz zu streiten und einen fehlerhaften Maßstab durch einen anderen zu ersetzen, wie zuvor an anderer Stelle vorgeschlagen wurde, und dass der Fokus darauf liegen sollte, das Optimum zu finden lösungen. Beispielsweise könnten Situationen dargestellt werden, in denen sich p-Werte und CI ergänzen, und Umstände, in denen einer zuverlässiger ist als der andere. Im Großen und Ganzen verstehe ich, dass alle Inferenzwerkzeuge ihre eigenen Mängel aufweisen, die in jeder Anwendung verstanden werden müssen, um den Fortschritt in Richtung des endgültigen Ziels nicht zu behindern. Das tiefere Verständnis des Studiensystems.
quelle
Ich gebe Ihnen den beispielhaften Fall, wie p-Werte verwendet und gemeldet werden sollten. Es ist ein sehr aktueller Bericht über die Suche nach einem mysteriösen Partikel auf Large Hadron Collider (LHC) im CERN .
Vor einigen Monaten gab es in Kreisen der Hochenergiephysik viele aufgeregte Gespräche über die Möglichkeit, dass ein großes Teilchen auf LHC nachgewiesen wurde. Denken Sie daran, dies war nach der Entdeckung des Higgs-Bosons . Hier ist der Auszug aus der Arbeit "Suche nach Resonanzen, die in Photonenpaaren in 3,2 fb − 1 von pp-Kollisionen bei √s = 13 TeV mit dem ATLAS-Detektor zerfallen" von The ATLAS Collaboration Dec 15 2015 und meine Kommentare folgen:
Was sie hier sagen, ist, dass die Anzahl der Ereignisse über dem liegt, was das Standardmodell vorhersagt. Die folgende Abbildung aus dem Artikel zeigt die p-Werte von Überschussereignissen als Funktion der Masse eines Teilchens. Sie sehen, wie der p-Wert um 750 GeV abtaucht. Sie sagen also, dass es eine Möglichkeit gibt, dass ein neues Teilchen mit einer Masse von 750 Giga eV detektiert wird . Die p-Werte in der Figur werden als "lokal" berechnet. Die globalen p-Werte sind viel höher. Das ist jedoch für unser Gespräch nicht wichtig.
Wichtig ist, dass p-Werte für Physiker noch nicht "niedrig genug" sind, um einen Fund zu deklarieren, sondern "niedrig genug", um aufgeregt zu werden. Sie planen also, weiter zu zählen und hoffen, dass die p-Werte weiter sinken.
Zoom ein paar Monate vor bis August 2016, Chicago, eine Konferenz über HEP . Es wurde ein neuer Bericht "Suche nach resonanter Produktion von Photonenpaaren hoher Masse mit 12.9 fb − 1 Proton-Proton-Kollisionen bei √ s = 13 TeV und kombinierte Interpretation von Suchen bei 8 und 13 TeV" von The CMS Collaboration vorgestellt . Hier nochmal die Auszüge mit meinen Kommentaren:
Also sammelten die Jungs weiterhin Events und nun ist der Überschuss an Events bei 750 GeV weg. Die folgende Abbildung zeigt die p-Werte. Sie können sehen, wie sich der p-Wert im Vergleich zum ersten Bericht erhöht hat. Sie kommen daher leider zu dem Schluss, dass bei 750 GeV kein Partikel nachgewiesen wird.
Ich denke, so sollen p-Werte verwendet werden. Sie sind absolut sinnvoll und funktionieren eindeutig. Ich denke, der Grund dafür ist, dass frequentistische Ansätze in der Physik von Natur aus natürlich sind. Partikelstreuung ist nicht subjektiv. Sie sammeln eine Probe, die groß genug ist, und Sie erhalten ein deutliches Signal, wenn sie da ist.
Wenn Sie wirklich wissen, wie genau p-Werte hier berechnet werden, lesen Sie dieses Papier : "Asymptotische Formeln für wahrscheinlichkeitsbasierte Tests der neuen Physik" von Cowan et al
quelle
Die anderen Erklärungen sind alle in Ordnung, ich wollte nur versuchen, eine kurze und direkte Antwort auf die Frage zu geben, die mir in den Sinn kam.
Überprüfung des kovariaten Ungleichgewichts in randomisierten Experimenten
Ihre zweite Behauptung (zu unrealistischen Nullhypothesen) trifft nicht zu, wenn wir das Kovariatengleichgewicht in randomisierten Experimenten überprüfen, bei denen wir wissen, dass die Randomisierung ordnungsgemäß durchgeführt wurde. In diesem Fall wissen wir, dass die Nullhypothese wahr ist. Wenn wir bei einigen Kovariaten einen signifikanten Unterschied zwischen Behandlung und Kontrollgruppe feststellen, nachdem wir natürlich mehrere Vergleiche kontrolliert haben, ist dies ein Hinweis darauf, dass wir bei der Randomisierung einen "Bad Draw" erhalten haben und der kausalen Schätzung möglicherweise nicht vertrauen sollten viel. Dies liegt daran, dass wir der Ansicht sein könnten, dass unsere Schätzung des Behandlungseffekts aus dieser speziellen Randomisierung der "schlechten Auslosung" weiter von den tatsächlichen Behandlungseffekten entfernt ist als die Schätzung aus einer "guten Auslosung".
Ich denke, das ist eine perfekte Verwendung von p-Werten. Es wird die Definition des p-Werts verwendet: die Wahrscheinlichkeit, einen Wert als oder extremer zu erhalten, wenn die Nullhypothese gegeben ist. Wenn das Ergebnis höchst unwahrscheinlich ist, haben wir tatsächlich ein "schlechtes Remis" erhalten.
Gleichgewichtstabellen / Statistiken sind auch häufig, wenn Beobachtungsdaten verwendet werden, um kausale Schlussfolgerungen zu ziehen (z. B. Matching, natürliche Experimente). Obwohl in diesen Fällen die Bilanztabellen bei weitem nicht ausreichen, um eine "kausale" Kennzeichnung der Schätzungen zu rechtfertigen.
quelle
Die Kontrolle der Fehlerraten ähnelt der Qualitätskontrolle in der Produktion. Ein Roboter in einer Produktionslinie hat die Regel, zu entscheiden, ob ein Teil defekt ist, wodurch garantiert wird, dass eine festgelegte Rate von defekten Teilen, die unentdeckt durchlaufen werden, nicht überschritten wird. In ähnlicher Weise kann eine Behörde, die Entscheidungen für die Zulassung von Arzneimitteln auf der Grundlage "ehrlicher" P-Werte trifft, die Rate falscher Ablehnungen auf einem kontrollierten Niveau halten, und zwar per definitionem über die häufige langfristige Erstellung von Tests. "Ehrlich" bedeutet hier das Fehlen unkontrollierter Vorurteile, versteckter Auswahlen usw.
Weder der Roboter noch die Agentur haben jedoch einen persönlichen Anteil an einem bestimmten Medikament oder einem Teil, der das Montageband passiert. In der Wissenschaft hingegen kümmern wir uns als einzelne Ermittler am meisten um die Hypothese, die wir untersuchen, und nicht um den Anteil falscher Behauptungen in unserem Lieblingsjournal, dem wir uns unterziehen. Weder die Größe des P-Werts noch die Grenzen eines Konfidenzintervalls (CI) beziehen sich direkt auf unsere Frage nach der Glaubwürdigkeit des Berichts. Wenn wir die CI-Grenzen konstruieren, sollten wir sagen, dass die einzige Bedeutung der beiden Zahlen darin besteht, dass, wenn andere Wissenschaftler in ihren Studien die gleiche Art von CI-Berechnung durchführen, die 95% oder eine beliebige andere Abdeckung für verschiedene Studien insgesamt beibehalten werden .
Vor diesem Hintergrund finde ich es ironisch, dass P-Werte von Fachzeitschriften "verboten" werden, da sie in Zeiten der Replizierbarkeitskrise für die Redakteure von größerem Wert sind als für Forscher, die ihre Arbeiten einreichen auf lange Sicht von einer Zeitschrift in Schach gehaltene Rate an falschen Ergebnissen. P-Werte filtern gut, oder, wie IJ Good schrieb, schützen sie das hintere Ende des Statistikers, aber nicht so sehr das hintere Ende des Clients.
PS: Ich bin ein großer Fan von Benjaminis und Hochbergs Idee, die unbedingten Erwartungen mit mehreren Tests über Studien hinweg zu erfüllen. Unter der globalen "Null" wird der "frequentistische" FDR immer noch kontrolliert - Studien mit einer oder mehreren Ablehnungen tauchen mit kontrollierter Häufigkeit in einem Journal auf, obwohl in diesem Fall jede Studie, in der tatsächlich einige Ablehnungen vorgenommen wurden, den entsprechenden Anteil hat von falschen Ablehnungen, die gleich eins ist.
quelle
Ich stimme mit Matt überein, dass p-Werte nützlich sind, wenn die Nullhypothese wahr ist.
Das einfachste Beispiel, das ich mir vorstellen kann, ist das Testen eines Zufallszahlengenerators. Wenn der Generator ordnungsgemäß funktioniert, können Sie jede geeignete Stichprobengröße für Realisierungen verwenden. Wenn Sie die Anpassung über viele Stichproben testen, sollten die p-Werte eine gleichmäßige Verteilung aufweisen. Wenn dies der Fall ist, ist dies ein guter Beweis für eine korrekte Implementierung. Wenn nicht, wissen Sie, dass Sie irgendwo einen Fehler gemacht haben.
Andere ähnliche Situationen treten auf, wenn Sie wissen, dass eine Statistik oder Zufallsvariable eine bestimmte Verteilung haben sollte (der offensichtlichste Kontext ist wiederum die Simulation). Wenn die p-Werte einheitlich sind, haben Sie Unterstützung für eine gültige Implementierung gefunden. Wenn nicht, wissen Sie, dass irgendwo in Ihrem Code ein Problem vorliegt.
quelle
Ich kann mir ein Beispiel vorstellen, in dem p-Werte in der experimentellen Hochenergiephysik nützlich sind. Siehe Abb. 1 Diese Darstellung stammt aus dieser Veröffentlichung: Beobachtung eines neuen Partikels bei der Suche nach dem Standardmodell des Higgs-Bosons mit dem ATLAS-Detektor am LHC
quelle