Hohe Varianz der Verteilung von p-Werten (ein Argument in Taleb 2016)

16

Ich versuche, die in Taleb, 2016, The Meta-Distribution of Standard P-Values , gemachte Behauptung zu verstehen .

Taleb macht darin das folgende Argument für die Unzuverlässigkeit des p-Werts (so wie ich es verstehe):

Eine Schätzprozedur, die mit Datenpunkten arbeitet, die von einer Verteilung X stammen, gibt einen p-Wert aus. Wenn wir aus dieser Verteilung n weitere Punkte ziehen und einen weiteren p-Wert ausgeben, können wir diese p-Werte mitteln, wobei wir in der Grenze den sogenannten "wahren p-Wert" erhalten.nX

Es wird gezeigt, dass dieser "wahre p-Wert" eine störend hohe Varianz aufweist, so dass eine Verteilung + Prozedur mit "wahrem p-Wert" 60% der Zeit einen p-Wert von <.05 meldet..12

Frage : Wie kann dies mit dem traditionellen Argument zugunsten des Wertes in Einklang gebracht werden ? Wie ich es verstehe, soll der p-Wert Ihnen sagen, wie viel Prozent der Zeit Ihre Prozedur Ihnen das richtige Intervall (oder was auch immer) geben wird. Dieses Papier scheint jedoch zu argumentieren, dass diese Interpretation irreführend ist, da der p-Wert nicht der gleiche ist, wenn Sie die Prozedur erneut ausführen.p

Verpasse ich den Punkt?

Lepidopterist
quelle
1
Können Sie erklären, was dieses "traditionelle Argument" ist? Ich bin mir nicht sicher, welches Argument Sie in Betracht ziehen.
Glen_b -Reinstate Monica
Die Frage ist interessant und bezieht sich auf eine Literatur, für die der Lebenslauf sogar einen Tag hat, der p-Werte kombiniert, die Sie möglicherweise hinzufügen möchten, wenn Sie dies für angemessen halten.
mdewey
1
Ich glaube, dass die Frage nach der Reproduzierbarkeit von p-Werten sehr eng mit dieser verwandt sein kann. Vielleicht ist die Analyse dort ähnlich (oder sogar gleich) wie die hier erwähnte.
Whuber

Antworten:

13

Ein p-Wert ist eine Zufallsvariable.

Unter (zumindest für eine kontinuierlich verteilte Statistik) sollte der p-Wert eine gleichmäßige Verteilung habenH0

Für einen konsistenten Test sollte unter der p-Wert im Grenzbereich auf 0 sinken, wenn die Probengröße gegen unendlich steigt. In ähnlicher Weise sollten mit zunehmender Effektgröße die Verteilungen der p-Werte auch dazu tendieren, sich in Richtung 0 zu verschieben, sie werden jedoch immer "ausgebreitet".H1

Die Vorstellung eines "wahren" p-Wertes klingt für mich nach Unsinn. Was würde es bedeuten, entweder unter oder H 1 ? Sie könnten zum Beispiel sagen, Sie meinen " den Mittelwert der Verteilung der p-Werte bei einer bestimmten Effektgröße und Stichprobengröße ", aber in welchem ​​Sinne haben Sie Konvergenz, bei der die Streuung schrumpfen sollte? Es ist nicht so, dass Sie die Stichprobe vergrößern können, während Sie sie konstant halten.H0H1

H1

Bildbeschreibung hier eingeben

Genau so sollten sich p-Werte verhalten - bei einer falschen Null sollten sich die p-Werte mit zunehmender Stichprobengröße auf niedrige Werte konzentrieren, aber nichts deutet darauf hin, dass die Verteilung der Werte so ist, wie Sie es benötigen Machen Sie einen Typ-II-Fehler - wenn der p-Wert über dem von Ihnen festgelegten Signifikanzniveau liegt - sollte dieser Signifikanzniveau auf irgendeine Weise "nahe" kommen.

α=0,05

Es ist oft hilfreich zu überlegen, was sowohl mit der Verteilung der Teststatistik, die Sie unter der Alternative verwenden, als auch mit der Anwendung der cdf unter der Null als Transformation für die Verteilung (die die Verteilung des p-Werts unter ergibt) geschieht die spezifische Alternative). Wenn Sie in diesen Begriffen denken, ist es oft nicht schwer zu verstehen, warum das Verhalten so ist, wie es ist.

Das Problem ist meines Erachtens nicht so sehr, dass es ein inhärentes Problem mit p-Werten oder Hypothesentests gibt, sondern vielmehr, ob der Hypothesentest ein gutes Werkzeug für Ihr spezielles Problem ist oder ob etwas anderes angemessener wäre in jedem Fall - das ist keine Situation für Polemiken mit breitem Pinsel, sondern eine der sorgfältigen Überlegungen zu den Fragen, auf die sich die Hypothesentests beziehen, und zu den besonderen Bedürfnissen Ihres Umstands. Leider werden diese Fragen nur selten sorgfältig geprüft - allzu oft stellt sich die Frage nach dem Formular "Welchen Test verwende ich für diese Daten?" Ganz zu schweigen davon, ob ein Hypothesentest ein guter Weg ist, um das Problem anzugehen.

Eine Schwierigkeit besteht darin, dass Hypothesentests häufig missverstanden und häufig missbraucht werden. Leute denken sehr oft, dass sie uns Dinge erzählen, die sie nicht erzählen. Der p-Wert ist möglicherweise die am meisten missverstandene Sache bei Hypothesentests.

Glen_b - Setzen Sie Monica wieder ein
quelle
pnm
nnn
1
H1H1
Lepidopterist
3
n
3
+1. Eine verwandte - und spaßige - Analyse, die mir einfällt, ist die, die Geoff Cumming "Ein Tanz der p-Werte" nennt: siehe youtube.com/watch?v=5OL1RqHrZQ8 (der "Tanz" findet nach ungefähr 9 Minuten statt). . Diese ganze kleine Präsentation betont im Grunde, wie variabel die p-Werte auch bei relativ hoher Leistung sind. Ich stimme nicht ganz mit Cummings Hauptpunkt überein, dass Konfidenzintervalle so viel besser sind als p-Werte (und ich hasse es, dass er es "neue Statistiken" nennt), aber ich denke, dass diese Mengenvariabilität für viele Menschen und die überraschend ist "Tanz" ist eine nette Art, es zu demonstrieren.
Amöbe sagt Reinstate Monica
10

Die Antwort von Glen_b ist genau richtig (+1; betrachten Sie meine Ergänzung). Der Artikel, auf den Sie sich bei Taleb beziehen, ähnelt aktuell einer Reihe von Artikeln in der Psychologie- und Statistikliteratur darüber, welche Informationen Sie aus der Analyse der Verteilung von p-Werten gewinnen können (was die Autoren als p-Kurve bezeichnen ; siehe ihre Site mit a) Ressourcen, einschließlich einer App zur Analyse von p-Kurven hier ).

Die Autoren schlagen zwei Hauptverwendungen der p-Kurve vor:

  1. Sie können den Beweiswert einer Literatur beurteilen, indem Sie die p-Kurve der Literatur analysieren . Dies war ihre erste beworbene Verwendung von p-curve. Wie in Glen_b beschrieben, sollten Sie bei Effektgrößen ungleich Null im Wesentlichen p-Kurven sehen, die unter dem herkömmlichen Schwellenwert von p <0,05 positiv verzerrt sind , da kleinere p-Werte wahrscheinlicher sein sollten als p- Werte näher an p= .05 wenn ein Effekt (oder eine Gruppe von Effekten) "echt" ist. Sie können daher eine p-Kurve auf einen signifikanten positiven Versatz als Beweiswerttest testen. Umgekehrt schlagen die Entwickler vor, dass Sie einen Test auf negative Abweichungen durchführen können (dh auf signifikantere p-Werte an der Grenze als auf kleinere), um zu testen, ob für einen bestimmten Satz von Effekten verschiedene fragwürdige analytische Praktiken angewendet wurden.
  2. Mithilfe einer p-Kurve mit veröffentlichten p-Werten können Sie eine publikationsverzerrungsfreie metaanalytische Schätzung der Effektgröße berechnen . Dieses ist etwas kniffliger zu erklären. Stattdessen empfehle ich, dass Sie sich die Artikel zu Effektgrößenschätzungen (Simonsohn, Nelson & Simmons, 2014a, 2014b) ansehen und sich selbst über die Methoden informieren. Im Wesentlichen schlagen die Autoren jedoch vor, dass die p-Kurve verwendet werden kann, um das Problem des Dateiauszugseffekts bei der Durchführung einer Metaanalyse zu umgehen.

Also, was Ihre umfassendere Frage betrifft:

Wie kann dies mit dem traditionellen Argument zugunsten des p-Werts in Einklang gebracht werden?

Ich würde sagen, dass Methoden wie die von Taleb (und anderen) einen Weg gefunden haben, p-Werte umzuwandeln, damit wir durch Analyse nützliche Informationen über ganze Literaturen erhalten Gruppen von p-Werten , während ein p-Wert für sich allein sein könnte viel begrenzter in seiner Nützlichkeit.

Verweise

Simonsohn, U., Nelson, LD & Simmons, JP (2014a). P-Kurve: Ein Schlüssel zur Aktenschublade. Journal of Experimental Psychology: Allgemeines , 143 , 534–547.

Simonsohn, U., Nelson, LD & Simmons, JP (2014b). P-Kurve und Effektgröße: Korrektur der Publikationsverzerrung mit nur signifikanten Ergebnissen. Perspektiven auf die Psychologie , 9 , 666-681.

Simonsohn, U., Simmons, JP & Nelson, LD (2015). Bessere P-Kurven: P-Kurven-Analyse robuster gegen Fehler, Betrug und ehrgeiziges P-Hacking machen, eine Antwort an Ulrich und Miller (2015). Journal of Experimental Psychology: General , 144 , 1146-1152.

jsakaluk
quelle