Eingefestigte Ansichten von p-Werten

31

Manchmal füge ich in Berichten einen Haftungsausschluss zu den von mir bereitgestellten p-Werten und anderen Inferenzstatistiken ein. Ich sage, da die Stichprobe nicht zufällig war, galten solche Statistiken nicht unbedingt. Mein spezifischer Wortlaut wird normalerweise in einer Fußnote angegeben:

"Während Inferenzstatistiken streng genommen nur im Zusammenhang mit Zufallsstichproben anwendbar sind, befolgen wir die Konvention, Signifikanzniveaus und / oder Konfidenzintervalle als geeignete Maßstäbe auch für nicht zufällige Stichproben zu melden. Siehe Michael Oakes ' Statistische Schlussfolgerung: Ein Kommentar zum sozialen und Verhaltenswissenschaften (NY: Wiley, 1986).

Bei einigen Gelegenheiten - einmal für eine von Fachkollegen begutachtete Arbeit, ein- oder zweimal in einem nicht-akademischen Umfeld - lehnte der Herausgeber oder Rezensent diesen Haftungsausschluss ab und nannte ihn verwirrend. Er war der Ansicht, dass die Schlussfolgerungen einfach so stehen sollten, wie sie geschrieben wurden (und den Mantel der Autorität gegeben werden). Hat jemand anderes auf dieses Problem gestoßen und eine gute Lösung gefunden? Einerseits ist das Verständnis der Menschen für p-Werte im Allgemeinen schlecht, selbst im Zusammenhang mit der Zufallsstichprobe. Vielleicht spielt es also keine Rolle, was wir sagen. Zum anderen scheint es ein Teil des Problems zu sein, zu weiteren Missverständnissen beizutragen. Ich sollte hinzufügen, dass ich mich häufig mit Umfragestudien beschäftige, bei denen keine zufällige Zuordnung vorliegt und bei denen Monte-Carlo-Simulationen das Problem der Repräsentativität häufig nicht berücksichtigt werden.

rolando2
quelle
3
Der Kommentar zu einem Gutachter ist äußerst traurig, man würde hoffen, dass eine Person in dieser Position zumindest ihre Unwissenheit nicht offen zum Ausdruck bringt und damit die Fehlinterpretation der statistischen Methode weiter unterstützt.
Richiemorrisroe
8
Korrigieren Sie mich, wenn ich falsch liege, aber die Zufälligkeit der Stichprobe wirkt sich einfach auf den Grad aus, in dem Sie die Ergebnisse verallgemeinern können. Im Gegensatz dazu ist die zufällige Zuordnung das kritischere Merkmal für die kausale Folgerung.
Mike Lawrence
3
Mike, ich stimme dir zu. Machen Sie diesen Punkt, um die Diskussion zu verlängern oder um auf Meinungsverschiedenheiten mit etwas hinzuweisen, das ich gesagt habe?
Rolando2
@richiemorrisroe: Man wäre dumm, das von allen Rezensenten zu erwarten, aber ich nehme an, man kann auf eine Zukunft hoffen, in der wir das erwarten können, und wir sollten die Verlage auf jeden Fall unter Druck setzen, mehr zu tun, um dies zu fordern und durchzusetzen, als sie es derzeit tun. Rolando, ich denke, Mikes ist nur ein klarer Punkt, um diese Diskussion von kausal-inferenzbezogenen Fragen zu trennen. Offensichtlich haben einige Leute das als hilfreich empfunden, obwohl ich dachte, dass es persönlich schon klar genug war. Wenn ich recht habe, misst dies versehentlich die Verwirrung anderer über p- Werte, was den ursprünglichen Beitrag motiviert!
Nick Stauner

Antworten:

11

Es ist in der Tat ein Argument zu haben, den Haftungsausschluss nicht aufzunehmen. Ehrlich gesagt, würde ich eine kurze Abhandlung über die Natur von p-Werten in einem Zeitschriftenartikel finden, die ein wenig abschreckend ist und für einen Moment innehalten und versuchen müsste, herauszufinden, ob Sie etwas Besonderes getan hätten. .esoteric ... um zu rechtfertigen, diesen Raum einem bestimmten Punkt zuzuweisen.

Als Rezensent würde ich das als unnötig bezeichnen, da der Leser bereits wissen sollte, was ein p-Wert ist und tut. Ich könnte sogar Einwände dagegen erheben, weil das Erstellen einer solchen Notiz keines der vielen Verbrechen der Analyse und Interpretation verhindert, die mit p-Werten einhergehen, sondern lediglich den Umhang des "Vertrau mir, ich weiß, was ich tue" aufwirft. Es ist auch ein bisschen seltsam - "Ich werde mich mutig gegen p-Werte aussprechen, aber nicht so mutig, dass ich sie nicht melde".

Als ich „verschanzen Ansichten auf p-Werten“ betrachte, bin ich viel weniger besorgt über etwas wie das, was Sie oben gepostet, und viel mehr besorgt über Rezensenten Beharren auf statistische Signifikanz , um das Papiers veröffentlicht oder den Fokus werden (put ein Stern durch einen Befund (und plötzlich ist es eine große Sache) oder die Vermischung der statistischen Bedeutung mit der Bedeutung eines Befundes.

Fomite
quelle
3
Ich glaube nicht, dass dies das OP beantwortet. Ich gehe davon aus, dass @ rolando2 andere Statistiken meldet, die für seine Diskussionen von zentraler Bedeutung sind (z. B. Effektgrößen), und meistens p- Werte als eine Möglichkeit, konventionellen Erwartungen gerecht zu werden, obwohl sie nicht streng zutreffen. Als solches sollten wir in welchem ​​Ausmaß wir zu viel in p- Werten lesen, abschrecken; Wir sollten seine Motivation für den Haftungsausschluss berücksichtigen. Die Leser wissen nicht, was sie sollen; Das OP erwähnt dies. Der Haftungsausschluss fördert Zweifel, kein Vertrauen. Es ist nicht sonderlich, Einwände gegen einen Standard zu erheben, während man sich daran hält. Es ist keine kühne Haltung.
Nick Stauner
@NickStauner Ich sehe nicht, wie es das OP nicht "beantwortet". Vielleicht unterstützt es nicht, was sie tun wollen, aber in meinen Augen ist es sowohl eine wirklich seltsame Abkehr vom eigentlichen Inhalt des Papiers als auch nutzlos - "Das ist falsch, aber ich gehe zum Soldaten, als ob es sein würde Recht , weil es ist , was man alles erwarten“hat mir nicht sagen , wenn die Unrichtigkeit Angelegenheiten .
Fomite
3
Die Frage des OP: "Hat jemand anderes dieses Problem festgestellt und eine gute Lösung gefunden?" Ihre Antwort ignoriert die wörtliche Frage, um auf die Idee zu antworten, und bietet meistens Ihre Meinungen darüber, warum die Idee abgeschossen werden sollte. Sie deuten jedoch auf eine konstruktive Kritik an der Idee des OP hin: Sie scheinen nicht zu glauben, dass das Oakes-Zitat Ihnen sagt, warum es wichtig ist. Ich werde dies in einer eigenen Antwort etwas näher erläutern.
Nick Stauner
12

Die Verwendung von Inferenzstatistiken kann nicht nur auf der Grundlage eines Populationsmodells, sondern auch auf der Grundlage eines Randomisierungsmodells gerechtfertigt werden. Letzteres macht keine Annahmen über die Art und Weise, wie die Probe erhalten wurde. Tatsächlich war Fisher derjenige, der vorschlug, dass das Randomisierungsmodell die Grundlage für statistische Schlussfolgerungen sein sollte (im Gegensatz zu Neyman und Pearson). Siehe zum Beispiel:

Ernst, MD (2004). Permutationsmethoden: Eine Basis für exakte Rückschlüsse. Statistical Science, 19, 676 & ndash; 685. [Link (offener Zugang)]

Ludbrook, J. & amp; Dudley, H. (1998). Warum Permutationstests den t- und F-Tests in der biomedizinischen Forschung überlegen sind. American Statistician, 52, 127 & ndash; 132. [Link (wenn Sie JSTOR-Zugriff haben)]

Ich bezweifle jedoch, dass die fraglichen Redakteure oder Rezensenten dies als Grund dafür herangezogen haben, Ihren Haftungsausschluss als "verwirrend" zu bezeichnen.

Wolfgang
quelle
1
Wolfgang - interessante und hilfreiche Punkte. Ich hätte jedoch klarstellen müssen, dass sich ein Großteil meiner Arbeit auf Umfragen bezieht.
Rolando2
7
Wenn das primäre Ziel darin besteht, auf die Population zu schließen, und der Stichprobenmechanismus so beschaffen ist, dass die Repräsentativität der Stichprobe fraglich ist, ist jede Schlussfolgerung in der Tat auch eher fraglich. Im Wesentlichen können Sie nur auf den Teil der Grundgesamtheit schließen, für den der Stichprobenmechanismus eine Darstellung bereitstellt. Grundsätzlich sind die Schlussfolgerungen, die Sie ziehen, für diesen Teil der Bevölkerung angemessen. Ob dieser Teil der Bevölkerung für Sie (oder die Leser) von Interesse ist, ist ein weiteres Problem.
Wolfgang
7

pWerte sind in der Tat notwendig, um trotz ihrer nicht zu vernachlässigenden Ungültigkeit in einer problematischen Studie (einer Klasse, in die allzu viele veröffentlichte Artikel fallen) zu berichten, man könnte sie implizit herunterspielen. Ziehen Sie in Betracht, Ihre Erzählung stattdessen - vielleicht sogar ausschließlich - auf Effektgrößen zu konzentrieren. Wenn Ihre Studie ausreichend repräsentativ ist, um nützlich zu sein (dies sollte keine vollkommen zufällige Stichprobe erfordern, nur Vorsicht bei der Allgemeinheit der Interpretationen), sollten Ihre Effektgrößen umfassendere Auswirkungen haben, als ohnehin nur das Vorhandensein und die Richtungen von Beziehungen oder Unterschieden anzuzeigen. Die Fokussierung der Diskussion auf Effektgrößen kann ein tieferes Verständnis dafür ermöglichen, wie wichtig die Beziehungen oder Unterschiede im praktischen Sinne sind, obwohl dies im Kontext des Studienfachs noch zu berücksichtigen ist (z. B.r=.03ppp

Eine andere, möglicherweise ergänzende Option wäre, Ihre Fußnote zu erweitern. Sowohl Ihre Beschreibungen des Problems als Rezensenten haben es erfahren, als auch die gegenwärtig akzeptierte Antwort auf dieser Seite legen nahe, dass nicht genügend Informationen übermittelt werden, um Ihre Motivation für die Aufnahme der Fußnote zu erklären, noch genug, um den Leser zu motivieren, Ihrem Zitat auf die Referenz zu folgen das benutzt du, um es so knapp zu erklären. Ein einziger, zusätzlicher Satz, sogar ein kurzes Zitat aus Ihrer Referenz, könnte den Wert Ihrer Fußnote erklären und die Leser motivieren, tiefer zu lesen. Offensichtlich motiviert Ihre Fußnote eher eine einfache, negative, abweisende Reaktion auf Ihren zurückhaltenden Versuch, ihre Selbstzufriedenheit mit ihren falschen Annahmen zu stören. Die Leser könnten etwas weniger intellektuell faul sein, wenn Sie ihnen einen oder zwei der wichtigsten Punkte zu Problemen vortragen, die sie wahrscheinlich routinemäßig übersehen. Auch für viele besondere Probleme mitp

p

ppp

Verweise

- Goodman, SN (1992). Ein Kommentar zu Replikation, P- Werten und Evidenz. Statistics in Medicine, 11 (7), 875–879.
- Goodman, SN (2001). Von P- Werten und Bayes: Ein bescheidener Vorschlag. Epidemiology, 12 (3), 295–297. Abgerufen von http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .
- Goodman, S. (2008). Ein schmutziges Dutzend: Zwölf P- Wert-Missverständnisse. Seminare in Hämatologie, 45 (3), 135-140. Von http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .
- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M. & Greenberg, DA (2007). Nichtreplikation von Assoziationsstudien: „Pseudofehler“ replizieren? Genetics in Medicine, 9 (6), 325–331. Abgerufen von http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, SH & Lombardi, CM (2009). Endgültiger Zusammenbruch des Neyman-Pearson-Entscheidungsrahmens und Aufstieg des neoFisherian. Annales Zoologici Fennici, 46 (5), 311–349. Abgerufen von http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Lew, MJ (2013). Zu P oder nicht zu P: Über die Evidenz der P-Werte und ihren Platz in der wissenschaftlichen Folgerung. arXiv: 1311.0081 [stat.ME]. Abgerufen vonhttp://arxiv.org/abs/1311.0081 .
- Nuzzo, R. (2014, 12. Februar). Wissenschaftliche Methode: Statistische Fehler. Nature News, 506 (7487). Abgerufen von http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .
- Rosenthal, R., Rosnow, RL & Rubin, DB (2000). Kontraste und Effektgrößen in der Verhaltensforschung: Ein korrelativer Ansatz. Cambridge University Press.
- Senn, S. (2001). Ein Hoch auf die P-Werte? Journal of Epidemiology and Biostatistics, 6 (2), 193–204. Abgerufen von http://www.phil.vt.edu/dmayo/conference_2010/Senn%20Two%20Cheers%20Paper.pdf .
- Wagenmakers, EJ (2007). Eine praktische Lösung für die allgegenwärtigen Probleme vonp Werte. Psychonomic Bulletin & Review, 14 (5), 779–804. Abgerufen von http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .

Nick Stauner
quelle
3
Trotz ihrer Heftigkeit sind nicht alle Kritikpunkte an P-Werten richtig oder gerechtfertigt. Sie sollten diese beiden Papiere für ein paar Kontrapunkte zu den Kommentaren sehen, die Sie zitieren: Two Cheers for P Values ​​(von Stephen Senn) phil.vt.edu/dmayo/conference_2010/… ; An P oder nicht An P (von mir) arxiv.org/abs/1311.0081
Michael Lew
1
Hervorragender Punkt! Vielen Dank! Ich habe sie leicht bearbeitet, um Ihre Beiträge einzuschließen, und ich werde sie möglicherweise etwas weiter bearbeiten, sobald ich sie gut genug verstehe, um ihre Auswirkungen in den Rest meiner Ausführungen zu integrieren. Deshalb liebe ich Cross Validated ...
Nick Stauner
2
Haben Sie experimentelle Beweise für Ihre Behauptung, dass sich die Annahme von Edwards auf p-Werte erstreckt? Ich finde mich selbst äußerst skeptisch. Meiner Analogie nach habe ich ein paar Artikel gesehen, die zeigen, dass selbst erfahrene Datenwissenschaftler Schwierigkeiten haben, einen Korrelationskoeffizienten aus einem Streudiagramm abzuschätzen. Es scheint, als würden Sie von Wissenschaftlern viel mehr verlangen, um ein Gefühl dafür zu bekommen, was ein p-Wert in Bezug auf die Wahrscheinlichkeit bedeutet. Ihr Argument für Likelihood-Funktionen ist interessant ... sie sehen in der Regel ein bisschen nach posterioren Verteilungen aus, oder?
Russellpierce
2
@rpierce Ich habe keine experimentellen Beweise für das Verständnis der Benutzer statistischer Methoden. Ich würde jedoch behaupten, dass zumindest einige der Studien, die durchgeführt wurden, um festzustellen, ob die Wissenschaftler die p-Werte "verstehen", fatal fehlerhaft sind, indem sie keine wirklich offensichtlich aussagekräftige Beschreibung des p-Werts in die Optionen aufnehmen. Ihre Analogie ist nicht naheliegend, da die Tatsache, dass Korrelationskoeffizienten nicht einfach geschätzt werden können, nicht das gleiche Problem ist wie die Schätzung der Beweiskraft aus einem p-Wert.
Michael Lew
1
@rpierce Die posteriore Wahrscheinlichkeitsdichtefunktion von einem einheitlichen Prior ist proportional zur Wahrscheinlichkeitsfunktion.
Michael Lew