Ist der genaue Wert eines 'p-Wertes' bedeutungslos?

31

Ich hatte 2009 eine Diskussion mit einem Statistiker, in der er feststellte, dass der genaue Wert eines p-Werts irrelevant ist: Wichtig ist nur, ob er signifikant ist oder nicht. Dh ein Ergebnis kann nicht signifikanter sein als ein anderes; Ihre Proben stammen zum Beispiel entweder aus derselben Population oder nicht.

Ich habe einige Bedenken, aber ich kann die Ideologie vielleicht verstehen:

  1. Die 5% -Schwelle ist willkürlich, dh, dass p = 0,051 nicht signifikant ist und p = 0,049, sollte die Schlussfolgerung Ihrer Beobachtung oder Ihres Experiments nicht wirklich ändern, obwohl ein Ergebnis signifikant und das andere nicht signifikant ist.

    Der Grund, warum ich das jetzt anspreche, ist, dass ich für einen MSc in Bioinformatik studiere und nach Gesprächen mit Fachleuten ein entschlossenes Bestreben besteht, für jede Statistik einen genauen p-Wert zu erhalten. Wenn sie beispielsweise einen p-Wert von p <1,9 × 10 –12 erreichen , möchten sie zeigen, wie signifikant ihr Ergebnis ist und dass dieses Ergebnis SUPER informativ ist. Beispiel für dieses Problem: Warum kann ich keinen p-Wert kleiner als 2.2e-16 erhalten? , wobei sie einen Wert aufzeichnen wollen, der anzeigt, dass dies allein durch Zufall VIEL weniger als 1 in einer Billion wäre. Ich sehe jedoch kaum einen Unterschied darin, zu demonstrieren, dass dieses Ergebnis weniger als 1 in einer Billion im Gegensatz zu 1 in einer Milliarde auftreten würde.

  2. Ich kann dann einschätzen, dass p <0,01 zeigt, dass es weniger als 1% Wahrscheinlichkeit gibt, dass dies eintreten würde, wohingegen p <0,001 anzeigt, dass ein Ergebnis wie dieses noch unwahrscheinlicher ist als der oben genannte p-Wert, aber sollten Ihre Schlussfolgerungen vollständig sein anders? Immerhin sind beide signifikante p-Werte. Ich kann mir nur vorstellen, den genauen p-Wert während einer Bonferroni-Korrektur aufzuzeichnen, bei der sich die Schwelle aufgrund der Anzahl der durchgeführten Vergleiche ändert, wodurch der Fehler vom Typ I verringert wird. Aber warum möchten Sie trotzdem einen p-Wert anzeigen, der 12 Größenordnungen kleiner ist als Ihre Schwellenwertsignifikanz?

  3. Und ist die Bonferroni-Korrektur an sich nicht auch etwas willkürlich? In dem Sinne, dass die Korrektur anfangs als sehr konservativ angesehen wird und es daher andere Korrekturen gibt, die man wählen kann, um auf das Signifikanzniveau zuzugreifen, das der Beobachter für seine Mehrfachvergleiche verwenden könnte. Aber aus diesem Grund ist der Punkt, an dem etwas signifikant wird, nicht wesentlich variabel, je nachdem, welche Statistik der Forscher verwenden möchte. Sollte die Statistik so offen für Interpretationen sein?

Abschließend sollte die Statistik nicht weniger subjektiv sein (obwohl ich vermute, dass ihre Subjektivität eine Folge eines multivariaten Systems ist), aber letztendlich möchte ich eine Klarstellung: Kann etwas bedeutender sein als etwas anderes? Und wird p <0,001 ausreichen, um den genauen p-Wert aufzuzeichnen?

Mark Ramotowski
quelle
6
Dies ist ziemlich interessant: stat.washington.edu/peter/342/nuzzo.pdf
Dan
4
Locker verwandt: In meiner Antwort auf die Frage, wann Fisher- und Neyman-Pearson-Framework verwendet werden sollen , argumentiere ich, dass es für jedes Framework eine Rolle gibt. Wenn ich meine Position dort halte, würde ich sagen, dass exakte p-Werte im NP-Framework keine Rolle spielen, aber im Fisherian-Framework eine Rolle spielen (sofern die Anzahl der gemeldeten Stellen tatsächlich zuverlässig ist).
gung - Reinstate Monica
Es ist erstaunlich, wie sehr einige Statistiker an dem Konzept eines p-Werts festhalten möchten, wenn es normalerweise die richtige Antwort auf die falsche Frage ist. Angenommen, p-Werte wurden in keinem Statistik-Softwarepaket implementiert. Ich bezweifle, dass die Leute ihren eigenen Code schreiben würden, um ihn zu bekommen.
Wahrscheinlichkeitslogik
3
@probabilityislogic - Nachdem ich bei Permutationstests meine statistischen Zähne geschnitten habe, sind p-Werte in diesem Fall eine sehr natürliche Denkweise. Ich könnte also einfach meinen eigenen Code schreiben, um sie zu erhalten, wenn sie nicht ... und tatsächlich weiter In den sehr seltenen Fällen, in denen ich überhaupt Tests durchführe, handelt es sich normalerweise um eine atypische Situation, die eine Simulation oder eine Art von Resampling erfordert. Ich würde eher sagen, dass Hypothesentests normalerweise die falsche Frage beantworten. In den seltenen Fällen denke ich, dass sie einen Wert haben (nicht zuletzt sind andere Menschen nicht an mein Bedeutungsniveau gebunden).
Glen_b
@glen_b - Mein Problem mit p-Werten ist, dass sie keine "Antwort" auf einen Hypothesentest geben, da sie Alternativen ignorieren. Wenn Sie sich auf nur eine Zahl beschränken, ist der Wert der Wahrscheinlichkeit für die Daten eine viel bessere Statistik als der p-Wert (und hat dieselben Probleme wie p). Auf diese Weise sind die Benutzer nicht an Ihre Auswahl der Teststatistik gebunden (und auch nicht an Ihren Schwellenwert für die Signifikanz).
Wahrscheinlichkeitsrechnung

Antworten:

24
  1. α=.05α=.051p

    p.05pBei der Interpretation von Werten werden Sie viele Meinungsverschiedenheiten über die Interpretation von Werten durch binäre / Entscheidungen in Bezug auf die Null sehen.pfail toreject

  2. ppp

    p

  3. α

    p

fail torejectp-Werte gemeldet werden? (und warum setzt R bei 2.22e-16 ein Minimum?) "- Es ist viel besser als die Antworten auf die Version dieser Frage, die Sie bei Stack Overflow verlinkt haben!

Referenzen
- Johnson, VE (2013). Überarbeitete Standards für statistische Nachweise. Verfahren der National Academy of Sciences, 110 (48), 19313–19317. Abgerufen von http://www.pnas.org/content/110/48/19313.full.pdf .
- Lew, MJ (2013). Zu P oder nicht zu P: Über die Evidenz der P-Werte und ihren Platz in der wissenschaftlichen Folgerung. arXiv: 1311.0081 [stat.ME]. Abgerufen von http://arxiv.org/abs/1311.0081 .

Nick Stauner
quelle
3
+1, viele gute Gedanken hier. 1 quibble aber zu # 1, ich würde sagen, wir sollten oft niedrigere Standards (dh höhere p-Werte) als vorzuziehen haben. Es ist oft schwierig, genügend Daten zu erhalten, um eine gute Fähigkeit zu haben, etwas zu studieren. Ich habe eine Reihe von Leistungsanalysen für Ärzte durchgeführt, die eine seltene Erkrankung untersuchen möchten. Sie sagen: "Das ist wirklich unterbesprochen. Ich habe eine Idee für einen neuen Ansatz. Wir können wahrscheinlich in den nächsten zwei Jahren 50 Patienten mit dieser Leistung bekommen." verlassen. Seltene Krankheiten werden weiterhin unterbesprochen, wenn p 0,05 oder weniger betragen muss.
gung - Wiedereinsetzung von Monica
2
@gung: da stimme ich voll zu. Ich habe Johnson (2013) nur zitiert, weil mir sein Argument bekannt war, nicht weil ich damit einverstanden bin Die Reaktion auf # 3) ist eines der Kernprobleme, und eine Anpassung nach oben oder unten wird es nicht lösen. Wenn es für eine Hard-und-schnell keine wirkliche Notwendigkeit ist fail to/ rejectEntscheidung, ich glaube , es ist viel besser ist das Urteil, wie wertvoll die Beweise zu machen beruhen auf viel mehr als die Wahrscheinlichkeit , dass der die Null gegebenen Probe.
Nick Stauner
4
Hervorragende Diskussion. Ein interessanter Artikel von einiger Relevanz ist der von Gelman und Stern. Der Unterschied zwischen "signifikant" und "nicht signifikant" ist selbst nicht statistisch signifikant (später veröffentlicht in American Statistician, 2006), was ich nicht sagen würde, dass der Wert von p als notwendig charakterisiert bedeutungslos, würde aber große Vorsicht walten lassen, wenn es darum geht, den Vergleich von p-Werten in den Vordergrund zu stellen (und nicht etwa Effektschätzungen). Gelman hat diesbezügliche Fragen häufig in seinem Blog diskutiert.
Glen_b
2
ppp
2
Es scheint, dass Gelman auf seiner Website auch einen Link zum PDF des veröffentlichten Papiers bereitstellt .
Glen_b
13

Es scheint mir, dass, wenn ein Wert aussagekräftig ist, sein genauer Wert aussagekräftig ist.

Der p-Wert beantwortet diese Frage:

Wenn in der Population, aus der diese Stichprobe zufällig gezogen wurde, die Nullhypothese zutrifft, wie hoch ist dann die Wahrscheinlichkeit, dass eine Teststatistik erhalten wird, die mindestens so extrem ist wie diejenige, die wir in der Stichprobe erhalten haben?

Was ist mit dieser Definition, die einen genauen Wert bedeutungslos macht?

Dies ist eine andere Frage als bei den Extremwerten von p. Das Problem bei Aussagen, die p mit vielen Nullen beinhalten, besteht darin, wie gut wir p in den Extremen schätzen können. Da wir das nicht sehr gut können, macht es keinen Sinn, so genaue Schätzungen von p zu verwenden. Dies ist der gleiche Grund, warum wir nicht sagen, dass p = 0,0319281010012981. Wir kennen diese letzten Ziffern nicht mit Sicherheit.

Sollten unsere Schlussfolgerungen anders sein, wenn p <0,001 und nicht p <0,05 ist? Oder, um genaue Zahlen zu verwenden, sollten unsere Schlussfolgerungen anders sein, wenn p = 0,00023 und nicht p = 0,035 ist?

Ich denke, das Problem ist, wie wir normalerweise Dinge über p schließen. Wir sagen "signifikant" oder "nicht signifikant", basierend auf einer beliebigen Ebene. Wenn wir diese willkürlichen Ebenen verwenden, werden unsere Schlussfolgerungen anders ausfallen. Aber so sollten wir nicht über diese Dinge nachdenken. Wir sollten uns die Beweislast ansehen, und statistische Tests sind nur ein Teil dieser Beweise. Ich werde (noch einmal) Robert Abelsons "MAGIC-Kriterien" einstecken:

Größenordnung - wie groß ist der Effekt?

Artikulation - wie genau ist es angegeben? Gibt es viele Ausnahmen?

Allgemeingültigkeit - für welche Gruppe gilt es?

Interesse - wird es den Menschen etwas ausmachen?

Glaubwürdigkeit - macht es Sinn?

Auf die Kombination all dieser Faktoren kommt es an. Beachten Sie, dass Abelson p-Werte überhaupt nicht erwähnt, obwohl sie als eine Art Hybrid aus Größe und Artikulation vorliegen.

Peter Flom - Wiedereinsetzung von Monica
quelle
5
Wir sagen es nicht oft, aber technisch gesehen spiegelt der p-Wert nur etwas über die "Wahrscheinlichkeit wider, eine Teststatistik zu erhalten, die mindestens so extrem ist wie die, die wir in der Stichprobe erhalten haben", wenn die Nullhypothese wahr ist, unsere Stichprobenschätzung der Populationsvarianz ist vollkommen genau und wir erfüllen alle anderen Annahmen unseres Tests. Wenn Sie einige Konfidenzintervalle per Bootstrapping um einige p-Werte setzen, werden Sie feststellen, dass wir auch in Bezug auf den Hundertstel-Platz häufig nicht allzu sicher sind.
Russellpierce
2
Kurz gesagt, es ist eine so verworrene Kontrafaktik, dass der Versuch, einen p-Wert zu quantifizieren, kontraproduktiv ist, wenn wir (wie Sie meinen) wirklich zur MAGIE zurückkehren sollten.
Russellpierce
Ich muss zugeben, ich hatte nicht daran gedacht, Konfidenzintervalle (oder Glaubwürdigkeitsintervalle) um p-Werte zu setzen. Ich frage mich, wie viel in diesem Bereich getan wurde?
Peter Flom - Wiedereinsetzung von Monica
2
Ich habe kein Zitat zur Hand, aber ich weiß, dass es eine Arbeit in dieser Richtung gibt - unabhängig davon, ist es eine akademische Sache, weil Sie Konfidenzintervalle Ihrer Konfidenzintervalle nahezu unendlich machen können (es gibt ein Maximum) Abweichung, die aus einem beliebigen Datensatz vernünftigerweise geschätzt wird). Ich hatte einmal ein ziemlich langes und ausführliches Gespräch in dieser Richtung mit @Nick Stauner. Möglicherweise hat er noch einige Artikel, die er während des Gesprächs ausgegraben hat, um sie an den Tisch zu bringen.
Russellpierce
1
Keine Informationen zu Konfidenzintervallen für p- Werte, an die ich mich erinnere, aber ich habe diese Abschnitte möglicherweise überflogen. Ich war auch nicht daran interessiert, Konfidenzintervalle für p- Werte zu erstellen;)
Nick Stauner,