Ich versuche, die in Taleb, 2016, The Meta-Distribution of Standard P-Values , gemachte Behauptung zu verstehen .
Taleb macht darin das folgende Argument für die Unzuverlässigkeit des p-Werts (so wie ich es verstehe):
Eine Schätzprozedur, die mit Datenpunkten arbeitet, die von einer Verteilung X stammen, gibt einen p-Wert aus. Wenn wir aus dieser Verteilung n weitere Punkte ziehen und einen weiteren p-Wert ausgeben, können wir diese p-Werte mitteln, wobei wir in der Grenze den sogenannten "wahren p-Wert" erhalten.
Es wird gezeigt, dass dieser "wahre p-Wert" eine störend hohe Varianz aufweist, so dass eine Verteilung + Prozedur mit "wahrem p-Wert" 60% der Zeit einen p-Wert von <.05 meldet.
Frage : Wie kann dies mit dem traditionellen Argument zugunsten des Wertes in Einklang gebracht werden ? Wie ich es verstehe, soll der p-Wert Ihnen sagen, wie viel Prozent der Zeit Ihre Prozedur Ihnen das richtige Intervall (oder was auch immer) geben wird. Dieses Papier scheint jedoch zu argumentieren, dass diese Interpretation irreführend ist, da der p-Wert nicht der gleiche ist, wenn Sie die Prozedur erneut ausführen.
Verpasse ich den Punkt?
quelle
Antworten:
Ein p-Wert ist eine Zufallsvariable.
Unter (zumindest für eine kontinuierlich verteilte Statistik) sollte der p-Wert eine gleichmäßige Verteilung habenH0
Für einen konsistenten Test sollte unter der p-Wert im Grenzbereich auf 0 sinken, wenn die Probengröße gegen unendlich steigt. In ähnlicher Weise sollten mit zunehmender Effektgröße die Verteilungen der p-Werte auch dazu tendieren, sich in Richtung 0 zu verschieben, sie werden jedoch immer "ausgebreitet".H1
Die Vorstellung eines "wahren" p-Wertes klingt für mich nach Unsinn. Was würde es bedeuten, entweder unter oder H 1 ? Sie könnten zum Beispiel sagen, Sie meinen " den Mittelwert der Verteilung der p-Werte bei einer bestimmten Effektgröße und Stichprobengröße ", aber in welchem Sinne haben Sie Konvergenz, bei der die Streuung schrumpfen sollte? Es ist nicht so, dass Sie die Stichprobe vergrößern können, während Sie sie konstant halten.H0 H1
Genau so sollten sich p-Werte verhalten - bei einer falschen Null sollten sich die p-Werte mit zunehmender Stichprobengröße auf niedrige Werte konzentrieren, aber nichts deutet darauf hin, dass die Verteilung der Werte so ist, wie Sie es benötigen Machen Sie einen Typ-II-Fehler - wenn der p-Wert über dem von Ihnen festgelegten Signifikanzniveau liegt - sollte dieser Signifikanzniveau auf irgendeine Weise "nahe" kommen.
Es ist oft hilfreich zu überlegen, was sowohl mit der Verteilung der Teststatistik, die Sie unter der Alternative verwenden, als auch mit der Anwendung der cdf unter der Null als Transformation für die Verteilung (die die Verteilung des p-Werts unter ergibt) geschieht die spezifische Alternative). Wenn Sie in diesen Begriffen denken, ist es oft nicht schwer zu verstehen, warum das Verhalten so ist, wie es ist.
Das Problem ist meines Erachtens nicht so sehr, dass es ein inhärentes Problem mit p-Werten oder Hypothesentests gibt, sondern vielmehr, ob der Hypothesentest ein gutes Werkzeug für Ihr spezielles Problem ist oder ob etwas anderes angemessener wäre in jedem Fall - das ist keine Situation für Polemiken mit breitem Pinsel, sondern eine der sorgfältigen Überlegungen zu den Fragen, auf die sich die Hypothesentests beziehen, und zu den besonderen Bedürfnissen Ihres Umstands. Leider werden diese Fragen nur selten sorgfältig geprüft - allzu oft stellt sich die Frage nach dem Formular "Welchen Test verwende ich für diese Daten?" Ganz zu schweigen davon, ob ein Hypothesentest ein guter Weg ist, um das Problem anzugehen.
Eine Schwierigkeit besteht darin, dass Hypothesentests häufig missverstanden und häufig missbraucht werden. Leute denken sehr oft, dass sie uns Dinge erzählen, die sie nicht erzählen. Der p-Wert ist möglicherweise die am meisten missverstandene Sache bei Hypothesentests.
quelle
Die Antwort von Glen_b ist genau richtig (+1; betrachten Sie meine Ergänzung). Der Artikel, auf den Sie sich bei Taleb beziehen, ähnelt aktuell einer Reihe von Artikeln in der Psychologie- und Statistikliteratur darüber, welche Informationen Sie aus der Analyse der Verteilung von p-Werten gewinnen können (was die Autoren als p-Kurve bezeichnen ; siehe ihre Site mit a) Ressourcen, einschließlich einer App zur Analyse von p-Kurven hier ).
Die Autoren schlagen zwei Hauptverwendungen der p-Kurve vor:
Also, was Ihre umfassendere Frage betrifft:
Ich würde sagen, dass Methoden wie die von Taleb (und anderen) einen Weg gefunden haben, p-Werte umzuwandeln, damit wir durch Analyse nützliche Informationen über ganze Literaturen erhalten Gruppen von p-Werten , während ein p-Wert für sich allein sein könnte viel begrenzter in seiner Nützlichkeit.
Verweise
Simonsohn, U., Nelson, LD & Simmons, JP (2014a). P-Kurve: Ein Schlüssel zur Aktenschublade. Journal of Experimental Psychology: Allgemeines , 143 , 534–547.
Simonsohn, U., Nelson, LD & Simmons, JP (2014b). P-Kurve und Effektgröße: Korrektur der Publikationsverzerrung mit nur signifikanten Ergebnissen. Perspektiven auf die Psychologie , 9 , 666-681.
Simonsohn, U., Simmons, JP & Nelson, LD (2015). Bessere P-Kurven: P-Kurven-Analyse robuster gegen Fehler, Betrug und ehrgeiziges P-Hacking machen, eine Antwort an Ulrich und Miller (2015). Journal of Experimental Psychology: General , 144 , 1146-1152.
quelle