Die Häufigkeit von P-Werten in Abwesenheit einer Hypothese

28

Ich bin in Epidemiologie. Ich bin kein Statistiker, aber ich versuche, die Analysen selbst durchzuführen, obwohl ich oft auf Schwierigkeiten stoße. Ich habe meine erste Analyse vor 2 Jahren durchgeführt. P-Werte wurden überall in meine Analysen einbezogen (ich habe einfach getan, was andere Forscher taten), von beschreibenden Tabellen bis zu Regressionsanalysen. Nach und nach überredeten mich die in meiner Wohnung tätigen Statistiker, alle (!) P-Werte zu überspringen, es sei denn, ich habe wirklich eine Hypothese.

Das Problem ist, dass p-Werte in medizinischen Forschungspublikationen häufig vorkommen. Es ist üblich, p-Werte in viel zu vielen Zeilen einzuschließen. beschreibende Daten von Mittelwerten, Medianwerten oder was auch immer normalerweise mit p-Werten einhergehen (Schüler-T-Test, Chi-Quadrat usw.).

Ich habe kürzlich einen Artikel in einer Zeitschrift eingereicht und mich (höflich) geweigert, p-Werte zu meiner "Baseline" -Deskriptionstabelle hinzuzufügen. Das Papier wurde schließlich abgelehnt.

Zur Veranschaulichung siehe die folgende Abbildung; es ist die beschreibende Tabelle aus dem letzten veröffentlichten Artikel in einer angesehenen Zeitschrift für Innere Medizin: Bildbeschreibung hier eingeben

Statistiker sind meist (wenn nicht immer) an der Überprüfung dieser Manuskripte beteiligt. Ein Laie wie ich erwartet daher, keine p-Werte zu finden, für die es keine Hypothese gibt. Aber sie sind reichlich vorhanden, aber der Grund dafür bleibt mir unklar. Es fällt mir schwer zu glauben, dass es Unwissenheit ist.

Mir ist klar, dass dies eine statistische Grenzfrage ist. Aber ich suche nach den Gründen für dieses Phänomen.

Adam Robinsson
quelle
12
Ein p-Wert ohne Hypothese ist von Natur aus fehlerhaft. Was bedeutet ein p-Wert auch, wenn Sie keine Hypothese haben?
Jameselmore
3
Können Sie vielleicht einige Beispiele für Menschen nennen, die p-Werte ohne Hypothese verwenden? Das ist nicht klar.
Amöbe sagt Reinstate Monica
4
@amoeba "" Das Problem ist, dass p-Werte in jedem medizinischen Journal überall vorkommen. Es ist üblich, p-Werte in jede Zeile aufzunehmen, in der Mittelwerte, Mediane oder Proportionen beschrieben sind. "" Bei diesen handelt es sich in der Regel um einfache exakte Fisher-Tests oder Chi-Quadrat-Tests auf Unterschiede, bei denen gefragt wird, ob eine Zeile einer Übersichtstabelle einen signifikanten Unterschied aufweist . Die implizite Hypothese ist, dass jede Zeile wichtig ist.
Karl
2
Ich vermute, dass eine große Kraft darin besteht, dass p-Werte einen irreführenden Eindruck von der Endgültigkeit einer bestimmten Behauptung vermitteln. Die Herausgeber dieser Zeitschriften sollten dies lieben, da sie Informationen besitzen, die auf absehbare Zeit wertvoll sein werden. Die gleichzeitige Kultur der Nichtfinanzierung oder des Vorschlags von Replikationsstudien trägt auch dazu bei, das Vorhandensein kontroverser widersprüchlicher Ergebnisse zu minimieren. Ich frage mich, was passieren wird, wenn die Leute irgendwann feststellen, dass die Informationen, die sie besitzen, größtenteils aus "sinnloser Aktivität" bestehen (@ glen_bs Begriff). Auch wenn nützliche Dinge beigemischt sind ... Heuristiken weisen Sie darauf hin, dies zu vermeiden.
Livid
1
[at] jameselmore: Ich stelle die gleiche Frage. Es macht keinen Sinn, aber es wird jeden Tag angewendet. [at] amoeba: Ich wähle zufällig eine der Zeitschriften aus, die ich gelesen habe, schlage den neuesten veröffentlichten Artikel vor und finde diese: onlinelibrary.wiley.com/doi/10.1111/joim.12230/full [at] Karl: genau, danke. @Momo: Ich habe mich jetzt bemüht, die Formulierung der Frage zu verbessern. Ich halte dies für eine wichtige Frage und freue mich über Ihren Vorschlag. [at] Livid: Danke für diesen Kommentar. In der Tat könnten viele Forscher den ganzen Punkt der p-Werte falsch verstanden haben.
Adam Robinsson

Antworten:

29

Natürlich muss ich Ihnen nicht sagen, was ein p-Wert ist oder warum es ein Problem ist, sich zu sehr auf sie zu verlassen. anscheinend verstehst du diese dinge schon ganz gut genug.

Mit dem Veröffentlichen haben Sie zwei konkurrierende Belastungen.

Die erste - und eine, auf die Sie bei jeder vernünftigen Gelegenheit drängen sollten - besteht darin, das zu tun, was Sinn macht.

Die zweite letztendlich ist die Notwendigkeit, tatsächlich zu veröffentlichen. Es bringt wenig, wenn niemand Ihre Bemühungen zur Reform schrecklicher Praktiken sieht.

Also anstatt es ganz zu vermeiden:

  • Mache es so wenig sinnlos, wie du kannst, damit es trotzdem veröffentlicht wird

  • Fügen Sie möglicherweise eine Erwähnung dieses kürzlich erschienenen Artikels über Nature-Methoden [1] hinzu, wenn Sie der Meinung sind, dass dies hilfreich sein wird, oder besser eine oder mehrere der anderen Referenzen. Zumindest sollte es dabei helfen festzustellen, dass es einen gewissen Widerstand gegen den Primat der p-Werte gibt.

  • Ziehen Sie andere Zeitschriften in Betracht, wenn eine andere geeignet wäre

Ist das auch in anderen Disziplinen so?

Das Problem der Übernutzung von p-Werte erfolgt in einer Reihe von Disziplinen (dies auch ein Problem sein kann , wenn es ist einige Hypothese), ist aber viel weniger häufig in einige als andere. Einige Disziplinen haben Probleme mit p-value-itis, und die Probleme, die diese verursachen, können schließlich zu etwas führen überzogenen Reaktionen führen [2] (und in geringerem Maße [1] und zumindest an einigen Stellen zu einigen anderen auch).

Ich denke, es gibt eine Vielzahl von Gründen dafür, aber die übermäßige Abhängigkeit von p-Werten scheint einen eigenen Impuls zu bekommen - es gibt etwas, wenn man "signifikant" sagt und eine Null ablehnt, die die Leute sehr attraktiv finden; Verschiedene Disziplinen (siehe z. B. [3] [4] [5] [6] [7] [8] [9] [10] [11]) haben (mit unterschiedlichem Erfolg) gegen das Problem des übermäßigen Vertrauens gekämpft p-Werte (insbesondere α = 0,05) seit vielen Jahren und haben viele verschiedene Arten von Vorschlägen gemacht - denen ich nicht alle zustimme, aber ich füge eine Vielzahl von Ansichten hinzu, um einen Sinn für die verschiedenen Dinge zu geben, die die Leute zu sagen hatten .

Einige befürworten die Konzentration auf Konfidenzintervalle, einige befürworten die Betrachtung der Effektgrößen, einige befürworten Bayes'sche Methoden, einige kleinere p-Werte, einige nur die Vermeidung der Verwendung von p-Werten auf bestimmte Weise und so weiter. Stattdessen gibt es viele verschiedene Ansichten darüber, was zu tun ist, aber zwischen ihnen gibt es eine Menge Material zu Problemen, wenn man sich auf p-Werte stützt, zumindest so, wie es ziemlich häufig gemacht wird.

In diesen Referenzen finden Sie wiederum viele weitere Referenzen. Dies ist nur eine Auswahl - viele Dutzend weitere Referenzen können gefunden werden. Einige Autoren geben Gründe an, warum sie glauben, dass p-Werte vorherrschen.

Einige dieser Verweise können nützlich sein, wenn Sie den Punkt mit einem Editor diskutieren möchten.

[1] Halsey LG, Curran-Everett D., Vowler SL und Drummond GB (2015),
"Der unbeständige P-Wert führt zu nicht reproduzierbaren Ergebnissen",
Nature Methods 12 , 179–185 doi: 10.1038 / nmeth.3288
http: // www .nature.com / nmeth / journal / v12 / n3 / abs / nmeth.3288.html

[2] David Trafimow, D. und Marks, M. (2015),
Editorial,
Basic and Applied Social Psychology , 37 : 1–2
http://www.tandfonline.com/loi/hbas20
DOI: 10.1080 / 01973533.2015.1012991

[3] Cohen, J. (1990),
Dinge, die ich (bisher) gelernt habe,
amerikanischer Psychologe , 45 (12), 1304–1312.

[4] Cohen, J. (1994),
Die Erde ist rund (p <.05),
amerikanischer Psychologe , 49 (12), 997–1003.

[5] Valen E. Johnson (2013),
Überarbeitete Standards für statistische Nachweise PNAS , vol. 110, nein. 48, 19313–19317 http://www.pnas.org/content/110/48/19313.full.pdf

[6] Kruschke JK (2010),
What to believe: Bayesianische Methoden zur Datenanalyse,
Trends in den Kognitionswissenschaften 14 (7), 293-300

[7] Ioannidis, J. (2005)
Warum die meisten veröffentlichten Forschungsergebnisse falsch sind,
PLoS Med. No. Aug; 2 (8): e124.
doi: 10.1371 / journal.pmed.0020124

[8] Gelman, A. (2013), P Values ​​and Statistical Practice,
Epidemiology Vol. 24 , Nr. 1, Januar 69-72

[9] Gelman, A. (2013),
"Das Problem mit p-Werten ist , wie sie sich gewohnt sind",
(Diskussion von „In Verteidigung der P-Werte“ von Paul Murtaugh, für Ecology ) nicht veröffentlichte
http: // citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublished/murtaugh2.pdf

[10] Nuzzo R. (2014),
Statistischer Fehler: P - Werte, der ‚Goldstandard‘ der statistischen Gültigkeit, sind nicht so zuverlässig , wie viele Wissenschaftler gehen davon aus ,
Nachrichten und Kommentare,
Natur , Vol. 506 (13), 150 & ndash; 152

[11] Wagenmakers E, (2007)
,
Psychonomic Bulletin & Review 14 (5), 779-804

Glen_b - Setzen Sie Monica wieder ein
quelle
7
+1. Ich habe dieses Nature Methods-Papier [1] eine weitere Woche gelesen und bin mir nicht sicher, ob es mir sehr gefällt. Sie argumentieren im Wesentlichen, dass p-Werte bei Low-Power-Tests sehr variabel sein können (siehe auch "Tanz der p-Werte" auf youtube) - etwas, das natürlich wahr ist und das betont werden muss. Sie kommen zu dem Schluss, dass p-Werte "schlecht" sind (der Titel klingt ziemlich hart) und dass die Leute Konfidenzintervalle verwenden sollten, die "gut" sind. Aber natürlich sind die Konfidenzintervalle auch bei geringer Leistung sehr variabel! Die Situation auf ihrer Abbildung 6 (links) sieht für mich nicht viel besser aus als auf Abbildung 2.
Amöbe sagt Reinstate Monica
2
@amoeba Ich werde nicht sagen, dass ich mit dir nicht einverstanden bin - da gibt es eine Menge, mit denen ich nicht einverstanden bin. Dennoch gibt es einige Punkte, die für das OP nützlich sein können. Eigentlich hast du mich an eine Änderung erinnert, die ich vornehmen wollte, aber vergessen habe.
Glen_b
3
Ja, ich stimme dem potenziellen Nutzen dennoch zu - vor allem, weil Nature Methods so seriös ist, dass sich die Menschen vielleicht von seiner "Autorität" überzeugen lassen. Ich wollte OP nur davor warnen, alles als selbstverständlich hinzunehmen (ihre Mathematik ist in Ordnung, ich spreche hier über Schlussfolgerungen / Interpretation).
Amöbe sagt Reinstate Monica
1
Interessant ist in diesem Zusammenhang auch Wilkinson und die Task Force on Statistical Inference, Statistical Methods in Psychology Journals, American Psychologist , Vol. 3 , No. 54, No. 8, 594-604, 1999.
A. Donda,
Glen_b, ich habe eine Frage zu einer der fremden Behauptungen im "Fickle P" -Papier gepostet : stats.stackexchange.com/questions/250269 - würde mich über Ihre Einsicht sehr freuen .
Amöbe sagt Reinstate Monica
10

Der p-Wert oder allgemeiner der Nullhypothesen-Signifikanztest (NHST) hält langsam immer weniger Wert. So sehr, dass angefangen hat , verboten zu werden in Fachzeitschriften zu werden.

Die meisten Leute verstehen nicht, was der p-Wert uns wirklich sagt und warum er uns das sagt, obwohl er überall verwendet wird.

P(Data|H0)P(H0|Daten) , die informativer ist. Letzteres beinhaltet die Verwendung der Bayes'schen Inferenz und bietet eine stärkere Basis für Schlussfolgerungen der Modellprüfung.

H0H0

stocherte
quelle
1
Ich würde hinzufügen, dass P (H0 | Daten) nur dann sinnvoll ist, wenn H0 sinnvoll ist. Die Studien müssen so konzipiert und dokumentiert werden, dass andere uninteressante Erklärungen für die Ergebnisse (Verzerrungen, Abbrüche, Grundlinienunterschiede) ausgeschlossen sind. Auch eine perfekt geblendete RCT mit erheblicher Effektgröße zeigt nur an, dass etwas Interessantes gemessen wurde. Herauszufinden, ob Sie das gemessen haben, womit Sie sich tatsächlich befassen, ist ein weiteres Problem, das häufig zusammen mit der P-Wert-Obsession auftritt.
Livid
8

Ist das auch in anderen Disziplinen so? Was ist der Grund für die Besessenheit mit p-Werten?

Greenwald et al. (1996) versuchen mit dieser psychologischen Frage umzugehen. Um NHST auch auf Basisdifferenzen anzuwenden, werden die Herausgeber vermutlich (zu Recht oder zu Unrecht) entscheiden, dass "nicht signifikante" Basisdifferenzen die Ergebnisse nicht erklären können, während "signifikante" die Ergebnisse erklären können. Dies ähnelt "Reason 1" von Greenwald et al. :

Warum bleibt NHT beliebt?

"Warum erliegt NHT keiner Kritik? Mangels einer besseren Antwort ist es verlockend, die Beharrlichkeit von NHT dem Charaktermangel von Verhaltensforschern zuzuschreiben. Die Unwilligkeit von Verhaltensforschern, auf das schuldige Vergnügen zu verzichten, möglicherweise falsche Nullhypothesen-Ablehnungen zu erhalten, kann es sein sei wie die Abneigung eines Trinkers, auf die Gewohnheit eines Aperitifs zu verzichten ... "

Grund I: HT liefert dichotome Ergebnisse

Aufgrund der weit verbreiteten Annahme der Konvention, dass p <.05 statistisch signifikant ist, kann NHT verwendet werden, um eine dichotome Antwort (ablehnen oder nicht ablehnen) auf eine Frage zu einer Nullhypothese zu erhalten. Dies kann häufig in Betracht gezogen werden als nützliche Antwort auf theoretische Fragen, die eher als Vorhersagerichtung als als als Erwartungswert eines Parameters ausgedrückt werden ... "

Grund 2: p Wert als aussagekräftige Übersetzung in einer gemeinsamen Sprache für Teststatistiken

"Im Gegensatz zu allem, was so direkt aus t-, F- oder r-Werten (mit ihrem zugehörigen df) erkannt werden kann, wird das Überraschungsmaß eines p-Werts einfach durch die Anzahl aufeinanderfolgender Nullen rechts vom Dezimalpunkt erfasst ..."

Grund 3: p - Wert liefert ein Maß für das Vertrauen in die Reproduzierbarkeit von Nullhypothesen - Ablehnungen

Im Gegensatz zu einer Effektgröße (oder einem Konfidenzintervall) ist ein p-Wert, der sich aus NHT ergibt, monoton mit einer Schätzung der Replizierbarkeit eines Nicht-Null-Befundes verknüpft nur in seinem NHT-Sinn, die Zurückweisungs-Nicht-Zurückweisungs-Schlussfolgerung zu wiederholen, und nicht in seinem Schätzungssinn der Nähe zwischen Punkt- oder Intervallschätzungen. "

Effektgrößen und p-Werte: Was soll gemeldet und was soll repliziert werden? Anthony G. Greenwald, Richard Gonzalez, Richard J. Harris und Donald Ruthrie. Psychophysiology, 33 (1996). 175-183. Cambridge University Press. Gedruckt in den USA. Copyright O 1996 Gesellschaft für Psychophysiologische Forschung

Livid
quelle
Vielen Dank für diese wichtigen Kommentare, mit denen ich beim nächsten Mal definitiv mit den Rezensenten streiten werde.
Adam Robinsson
6

P-Werte geben Auskunft über Unterschiede zwischen zwei Gruppen von Ergebnissen ("Behandlung" vs "Kontrolle", "A" vs "B" usw.), die aus zwei Populationen stammen. Die Art der Differenz wird in der Angabe der Hypothesen formalisiert - zB "Mittelwert von A ist größer als Mittelwert von B". Niedrige p-Werte deuten darauf hin, dass die Unterschiede nicht auf zufällige Variationen zurückzuführen sind, während hohe p-Werte darauf hinweisen, dass Unterschiede in den beiden Stichproben nicht von Unterschieden unterschieden werden können, die möglicherweise einfach aus zufälligen Variationen resultieren. Was für einen p-Wert "niedrig" oder "hoch" ist, war in der Vergangenheit eher eine Frage der Konvention und des Geschmacks als eine Frage strenger Logik oder Beweisanalyse.

Voraussetzung für die Verwendung von p-Werten ist, dass die beiden Ergebnisgruppen wirklich vergleichbar sind, dh dass die einzige Ursache für den Unterschied zwischen ihnen in der auszuwertenden Variablen liegt. Stellen Sie sich als übertriebenes Beispiel vor, Sie hätten Statistiken über zwei Krankheiten in zwei Zeiträumen - A: Mortalität durch Cholera bei Männern in britischen Gefängnissen 1920-1930 und B: Infektion durch Malaria in Nigeria 1960-1970. Die Berechnung eines p-Wertes aus diesen beiden Datensätzen wäre ziemlich absurd. Wenn nun A: Mortalität durch Cholera bei Männern in britischen Gefängnissen, die nicht behandelt werden, im Vergleich zu B: Mortalität durch Cholera bei Männern in britischen Gefängnissen, die mit Rehydration behandelt werden, dann haben Sie die Grundlage für eine solide statistische Hypothese.

Meist wird dies durch sorgfältiges Experimentdesign oder sorgfältiges Umfragedesign oder sorgfältiges Sammeln historischer Daten usw. erreicht. Außerdem müssen die Unterschiede zwischen den beiden Ergebnissen in Hypothesenaussagen formuliert werden, die Stichprobenstatistiken beinhalten - häufig Stichprobenmittel, aber auch Stichprobenvarianzen oder andere Stichprobenstatistiken sein. Es ist auch möglich, Hypothesenanweisungen zu erstellen, die die beiden Stichprobenverteilungen als Ganzes unter Verwendung der stochastischen Dominanz vergleichen. Diese sind selten.

Die Kontroverse um p-Werte dreht sich um "Was ist wirklich wichtig" für die Forschung? Hier kommen die Effektgrößen ins Spiel. Grundsätzlich ist die Effektgröße die Größe des Unterschieds zwischen den beiden Gruppen. Es ist möglich, eine hohe statistische Signifikanz (niedriger p-Wert -> nicht aufgrund zufälliger Variation), sondern auch eine geringe Effektgröße (sehr geringer Größenunterschied) zu haben. Wenn die Effektgrößen sehr groß sind, kann es in Ordnung sein, etwas hohe p-Werte zuzulassen.

Die meisten Disziplinen tendieren jetzt sehr stark dazu, Effektgrößen zu melden und die Rolle von p-Werten zu reduzieren oder zu minimieren. Sie fördern auch aussagekräftigere Statistiken über die Stichprobenverteilungen. Einige Ansätze, einschließlich der Bayes'schen Statistik, setzen alle p-Werte außer Kraft.


Meine Antwort ist verdichtet und vereinfacht. Es gibt viele Artikel zu diesem Thema, in denen Sie weitere Details, Begründungen und Einzelheiten finden, einschließlich dieser:

MrMeritology
quelle
@MerMeritology vielen Dank für die Bereitstellung dieser wichtigen Referenzen. Ich werde sie so schnell wie möglich lesen!
Adam Robinsson
6

"Ein Laie wie ich erwartet daher, keine p-Werte zu finden, für die es keine Hypothese gibt."

Implizit besagt das OP, dass es in der von ihm vorgelegten Tabelle keine Hypothesen gibt, die mit den angegebenen p-Werten einhergehen. Nur um diese kleine Verwirrung zu beseitigen, gibt es sicherlich Nullhypothesen, aber sie werden eher ... indirekt erwähnt (aus Gründen der Raumökonomie, nehme ich an).

Der "p-Wert" ist eine bedingte Wahrscheinlichkeit, zum Beispiel für einen "Rechts-Schwanz" -Test,

p-valP(Tt(S)H0)=1-FT|H0(t(S)H0)

TFT|H0(tH0)TH0t(S) ist der Wert von Tdurch die Verwendung der vorliegenden Probe erhalten. Damit der Test aussagekräftig ist, muss natürlich die Statistik zutreffenT ist so und die Nullhypothese H0 ist so, dass die Verteilung von T bedingt weiter H0 wahr zu sein, ist anders (oder anders parametrisiert, wenn beide derselben Familie angehören) von seiner Verteilung abhängig H0 nicht wahr sein.

So ein p-Wert kann nicht berechnet werden , selbst wenn es keine Nullhypothese ist , und wenn wir ein p-Wert gemeldet sehen, irgendwo gibt es eine Nullhypothese lauert.

In der Tabelle in der Frage, die wir gelesen haben

"Alle Tests auf Unterschiede zwischen WHR-Tertilen ..."

Die Nullhypothese ist in diesem Satz "verborgen": Es ist "kein Unterschied zwischen WHR-Tertilen" (was auch immer ein "WΗR-Tertil" ist), ausgedrückt in seiner mathematischen Form, die hier eine Differenz von zwei gleichgesetzten Größen zu sein scheint Null.

Alecos Papadopoulos
quelle
Ich stimme zu, dass hinter diesen Analysen Hypothesen stehen könnten. Wer jedoch Richtlinien für Forschungsarbeiten erarbeitet (zB STROBE-Statement), sollte sich mit der Fülle der p-Werte befassen. Ich denke, ein Wert sollte für die Haupthypothese eines Papiers reserviert werden (was selten mehr als eine ist). Aber trotzdem kann ich nicht sagen, dass ich mit Ihnen nicht einverstanden bin =)
Adam Robinsson
1
@AdamRobinsson Hmmm ... da bin ich mir nicht so sicher. Ein solcher "zurückhaltender" Ansatz würde die Bedeutung, die ein p-Wert-Test wirklich hat, um zu einer Schlussfolgerung zu gelangen, (noch mehr) aufblähen. Für mich ist es nur ein weiteres Ergebnis, das mit vielen anderen Aspekten, Ergebnissen, Informationen außerhalb der Stichprobe, Logik usw. kombiniert werden muss. Wenn andererseits p-Werte überall verstreut sind, ist dies der Fall leichter zu erkennen, dass sie nicht das definitive Kriterium sind, um zu Schlussfolgerungen zu gelangen.
Alecos Papadopoulos
Alecos Ich habe in der Tabelle etwas anderes gelesen, das sich eher auf WHR (dh Taille-Hüfte-Verhältnis) als auf WRT bezieht , während Tertiles Werte sind, die eine Verteilung in drei Teile aufteilen, und zwar in demselben Sinne, dass Quartile Werte sind, die sich in vier Teile aufteilen und Dezile bestehen aus zehn Teilen.
Glen_b
@ Glen_b Danke, das war nur ein Tippfehler von meiner Seite. Behoben.
Alecos Papadopoulos
2
Siehe zum Beispiel hier . Aber wahrscheinlich nicht hier .
Glen_b
2

Ich wurde neugierig und las die Zeitung, die OP als Beispiel gab: Übergewicht im Unterleib erhöht das Risiko für Hüftfrakturen . Ich bin kein medizinischer Forscher und lese normalerweise keine Medizinpapiere.

Ich war überrascht zu sehen, dass dies der EINZIGE Ort ist, an dem dieses Papier verwendet wird p-values ​​ist die Überschrift von Tabelle 1, die OP im Fragekörper wiedergibt.

Für mich sieht es nicht nach einer "Fülle" aus p-Werte überhaupt! Ich bin an neurowissenschaftliche Papiere gewöhnt, bei denen verschiedene Gruppen von Probanden (Menschen, Mäuse, Fliegen, Neuronen, Gewebeproben usw.) unter verschiedenen Bedingungen unterschiedlich behandelt oder gemessen werden und sich Papiere normalerweise um die Unterschiede zwischen den Gruppen drehen. Diese Unterschiede werden immer mit bewertetp-Werte, so dass ein Papier Dutzende und Dutzende von ihnen im Haupttext enthalten kann. Manchmal sieht das wirklich nach "Überfluss" aus. Dieser Ansatz wird oft (manchmal zu Recht und manchmal zu Unrecht) aus verschiedenen Gründen kritisiert, siehe eine Antwort von @Glen_b (+1) und weiterführende Links.

Dieses Papier macht jedoch nichts dergleichen und berichtet nur p-Werte grundsätzlich in der Einleitung, wenn unterschiedliche Merkmale der Kohorte gemeldet werden. Ich verstehe nicht was das istp-Werte tun dort, und so ja, ich stimme zu, dass sie fehl am Platz sind. Ich verstehe aber auch nicht, was dieser ganze Tisch dort macht! Ich finde diese Tabelle ziemlich verwirrend (warum Tertiles? Warum Tertiles von WHR? Wo ist die tatsächliche interessierende Variable, die Hüftfrakturrate?) Und sie scheint nicht für eine weitere Analyse verwendet zu werden. Diese ganze Tabelle konnte ohne großen Verlust zusammen mit der aus dem Text geworfen werdenp-Werte.

Da sehe ich keine Fülle von p-Werte in diesem Papier, ich bin etwas durch die Frage verwirrt.

Es hört sich so an, als beziehe sich die Frage speziell auf solche beschreibenden Tabellen. Wenn ja, ist dies eine seltsame (aber meist harmlose?) Praxis in medizinischen Fachzeitschriften, die aus Tradition überlebt.


PS By the way, die Haupt-Analyse dieses Papiers (das bedeutet nicht beinhaltet jedenp-Werte) sieht komisch aus für mich. Das Ziel der Studie ist es, [...] die Beziehung zwischen Taillenumfang (WC), Hüftumfang (HC), Taillen / Hüft-Verhältnis (WHR) und BMI zu auftretenden Hüftfrakturen zu untersuchen und dabei verschiedene mögliche Kovariaten zu kontrollieren . Die Stichprobengröße ist riesig (n=43000). Was ich tun würde, ist, alle Prädiktoren in ein Regressionsmodell mit einem elastischen Nettostrafwert zu setzen, die Regularisierungsparameter durch Kreuzvalidierung auszuwählen und dann zu untersuchen, welche Prädiktoren Koeffizienten ungleich Null haben. Oder etwas ähnliches. Die Autoren führen stattdessen eine Ad-hoc- Modellierung durch.

Amöbe sagt Reinstate Monica
quelle
@amoeba Ich habe einen Artikel bei rando ausgewählt. Es war der letzte veröffentlichte Artikel in der Epidemiologie in dieser Zeitschrift. Ich bin sicher, wenn ich mehr gesucht hätte, hätte ich einen Artikel mit viel mehr sinnlosen p-Werten liefern können. Wie Sie bemerkt haben, gibt es eine p-Wertigkeit, aber von Ihrer und den anderen Antworten oben und unten scheint es, dass die Forschungsgemeinschaft dies anspricht.
Adam Robinsson
@Adam, ich mag Ihre Frage (+1) und die Antwort von Glen_b (+1), aber wenn dieses "zufällig ausgewählte" Papier repräsentativ ist, dann treffen die meisten Punkte, die Glen_b gemacht hat, und die meisten Papiere, auf die er verlinkt hat, nicht zu oder verweisen nicht auf sie die Situation in der medizinischen Forschung, nach der Sie gefragt haben. Wenn es nicht repräsentativ ist, kann ich natürlich nicht beurteilen.
Amöbe sagt Reinstate Monica
Ihre Antworten haben mir schon mehrmals sehr geholfen. Ich habe das Urteil auf der Grundlage meines Verständnisses dieses Problems getroffen. Ich halte alle Antworten für nützlich und beantworte die Frage gemeinsam.
Adam Robinsson
1

Das Niveau der statistischen Begutachtung ist nicht so hoch, wie man nach meiner Erfahrung annehmen würde. Für alle angewandten Arbeiten, an denen ich gearbeitet habe, stammten alle statistischen Kommentare von Experten auf dem Gebiet der angewandten Technik und nicht von Statistikern. Für "Top" -Zeitschriften ist es nicht ungewöhnlich, dass Ergebnisse mit schwerwiegenden Fehlern angezeigt werden, obwohl sie einer genaueren Prüfung unterzogen werden. Ich denke, dies liegt zum Teil daran, dass das Gebiet der Statistik schwierig sein kann (wie sich aus Meinungsverschiedenheiten zwischen vielen seiner großen Köpfe ergibt).

Zweitens erwarten Leser in einem Bereich, dass sie die Dinge auf eine bestimmte Weise sehen. In einer kürzlich gemachten Erfahrung habe ich Wahrscheinlichkeiten aus einem Modell aufgezeichnet, diese wurden jedoch abgeschossen, da mein Mitarbeiter richtig vermutet hatte, dass seine Leser mit einem Barplot von Rohdaten besser zurechtkommen würden. In der Summe erwarten viele Leser, dass p-Werte neben einer Tabelle mit Basislinienmerkmalen angezeigt werden.

Unabhängig von Ihrer direkten Frage, aber möglicherweise relevant: p-Werte werden in fast jedem Text mithilfe von Frequentist- oder Likelihood-Methoden verwendet. Die Autoren haben oft enorme Beiträge geleistet und sich eingehend mit Statistiken befasst. Obwohl von Experimentatoren missbraucht, haben sie sicherlich einen Platz in der Statistik.

julieth
quelle
Danke für diesen Kommentar. Ich könnte Ihre Aussage noch weiter führen; Ich denke, dass ein unglaublich großer Teil der veröffentlichten Ergebnisse aus verschiedenen Gründen statistische Mängel aufweist. Mein Vorgesetzter sagt oft: "Der Überprüfungsprozess basiert auf einem Herrenwort." Sehr lustig finde ich.
Adam Robinsson
1

Ich muss oft medizinische Artikel lesen und ich habe das Gefühl, dass das Pendel von einem Extrem zum anderen schwankt, anstatt in der zentralen Gleichgewichtszone zu bleiben.

Der folgende Ansatz scheint gut zu funktionieren. Wenn der P-Wert klein ist, ist es unwahrscheinlich, dass der beobachtete Unterschied allein zufällig ist. Wir sollten daher das Ausmaß des Unterschieds betrachten und entscheiden, ob es von praktischer Bedeutung ist. Sehr kleine P-Werte treten bei großen Stichproben auch bei sehr kleinen Unterschieden auf, die für die Praxis möglicherweise nicht relevant sind.

Das Nichteinschließen von P-Werten in die Tabelle der Basisdaten kann nachteilig sein. Wenn es also in einer Studie zwei Gruppen mit einem Durchschnittsalter von 54 und 59 Jahren gibt, möchte ich wissen, ob dieser Unterschied allein zufällig sein kann. Wenn P klein ist, dann denke ich, ob dieser Unterschied von 5 Jahren in 2 Gruppen die Ergebnisse der Studie beeinflussen kann. Wenn P nicht klein ist, muss ich mich nicht mit dieser Frage befassen.

Das Problem tritt auf, wenn man sich ausschließlich auf den P-Wert verlässt und die Größe der Differenz nicht überprüft (z. B. einfache prozentuale Änderung). Einige meinen, dass P-Werte komplett weggelassen werden sollten, damit nur der Unterschied bleibt und gesehen wird. Eine ausgewogene Lösung wäre es, beide zu bewerten und nicht nur den P-Wert wegzuwerfen, der eine begrenzte, aber "signifikante" Bedeutung hat. Die Effektgröße korreliert wahrscheinlich auch eng mit dem P-Wert (genau wie Konfidenzintervalle) und es ist auch unwahrscheinlich, dass P-Werte vollständig aus der statistischen Landschaft verdrängt werden. Wie im folgenden Artikel erwähnt, gibt es viele Vorteile des Nullhypothesentests, aufgrund derer es weiterhin beliebt ist:

ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS UND DONALD GUTHRIE Effektgrößen und p-Werte: Was ist zu melden und was ist zu wiederholen? Psychophysiology, 33 (1996). 175-183.

rnso
quelle