Bearbeiten: Die Grundlage meiner Frage ist fehlerhaft, und ich muss einige Zeit damit verbringen, herauszufinden, ob es überhaupt sinnvoll sein kann.
Edit 2: Klarstellung, dass ich erkenne, dass ein p-Wert kein direktes Maß für die Wahrscheinlichkeit einer Nullhypothese ist, sondern dass ich davon ausgehe, dass eine Hypothese umso wahrscheinlicher ist, je näher ein p-Wert an 1 liegt wurde für experimentelle Tests ausgewählt, deren entsprechende Nullhypothese wahr ist. Je näher ein p-Wert an 0 liegt, desto wahrscheinlicher ist es, dass eine Hypothese für experimentelle Tests ausgewählt wurde, deren entsprechende Nullhypothese falsch ist. Ich kann nicht sehen, wie dies falsch ist, es sei denn, die Menge aller Hypothesen (oder aller für Experimente ausgewählten Hypothesen) ist irgendwie pathologisch.
Edit 3: Ich glaube, ich verwende immer noch keine klare Terminologie, um meine Frage zu stellen. Wenn Lotterienummern ausgelesen werden und Sie sie einzeln Ihrem Ticket zuordnen, ändert sich etwas. Die Wahrscheinlichkeit, dass Sie gewonnen haben, ändert sich nicht, aber die Wahrscheinlichkeit, dass Sie das Radio ausschalten können, ändert sich. Es gibt eine ähnliche Änderung, die auftritt, wenn Experimente durchgeführt werden, aber ich habe das Gefühl, dass die von mir verwendete Terminologie - "p-Werte ändern die Wahrscheinlichkeit, dass eine echte Hypothese gewählt wurde" - nicht die richtige Terminologie ist.
Bearbeiten 4: Ich habe zwei erstaunlich detaillierte und informative Antworten erhalten, die eine Fülle von Informationen enthalten, die ich durcharbeiten kann. Ich werde sie beide ab und zu abstimmen und dann zurückkommen, um eine zu akzeptieren, wenn ich aus beiden Antworten genug gelernt habe, um zu wissen, dass sie meine Frage entweder beantwortet oder ungültig gemacht haben. Diese Frage öffnete eine viel größere Dose Würmer als die, die ich erwartet hatte zu essen.
In Artikeln, die ich gelesen habe, habe ich nach der Validierung Ergebnisse mit p> 0,05 gesehen, die als "falsch positiv" bezeichnet wurden. Ist es jedoch nicht immer noch wahrscheinlich, dass ich eine Hypothese zum Testen mit einer falsch entsprechenden Nullhypothese ausgewählt habe, wenn die experimentellen Daten ap <0,50 haben, was niedrig, aber> 0,05 ist, und nicht sowohl die Nullhypothese als auch sind die statistisch unsichere / unbedeutende Forschungshypothese (angesichts des konventionellen statistischen Signifikanzgrenzwerts) irgendwo zwischen 0,05 <p < 0,95, unabhängig von der Umkehrung von p <0,05, angesichts der Asymmetrie, auf die in @ NickStauners Link hingewiesen wird ?
Nennen wir diese Zahl A und definieren sie als den p-Wert, der dasselbe über die Wahrscheinlichkeit aussagt, dass Sie für Ihr Experiment / Ihre Analyse eine echte Nullhypothese ausgewählt haben, dass ein p-Wert von 0,05 über die Wahrscheinlichkeit aussagt, dass Sie ' Wir haben eine echte Nicht-Null-Hypothese für Ihr Experiment / Ihre Analyse ausgewählt. 0,05 <p <A sagt nicht nur: "Ihre Stichprobengröße war nicht groß genug, um die Frage zu beantworten, und Sie können die Bedeutung der Anwendung / der realen Welt erst beurteilen, wenn Sie eine größere Stichprobe erhalten und Ihre Statistik erhalten Bedeutung aussortiert "?
Mit anderen Worten, sollte es nicht richtig sein, ein Ergebnis definitiv falsch (und nicht einfach nicht unterstützt) zu nennen, wenn und nur wenn p> A?
Dies scheint mir unkompliziert zu sein, aber eine derart weit verbreitete Verwendung sagt mir, dass ich möglicherweise falsch liege. Bin ich:
a) Fehlinterpretation der Mathematik,
b) Beschwerde über eine harmlose, wenn nicht genau korrekte Konvention,
c) völlig korrekt oder
d) andere?
Ich erkenne, dass dies wie ein Aufruf zur Stellungnahme klingt, aber dies scheint eine Frage mit einer eindeutigen mathematisch korrekten Antwort zu sein (sobald ein Signifikanzgrenzwert festgelegt ist), die entweder ich oder (fast) alle anderen falsch verstehen.
quelle
Antworten:
Ihre Frage basiert auf einer falschen Prämisse:
Ein p-Wert ist keine Wahrscheinlichkeit, dass die Nullhypothese wahr ist. Wenn Sie beispielsweise tausend Fälle genommen haben, in denen die Nullhypothese wahr ist, hat die Hälfte davon
p < .5
. Diese Hälfte wird alle null sein.In der Tat ist die Idee,
p > .95
dass die Nullhypothese "wahrscheinlich wahr" ist, ebenso irreführend. Wenn die Nullhypothese wahr ist, ist die Wahrscheinlichkeitp > .95
genau die gleiche wie die Wahrscheinlichkeit, dassp < .05
.ETA: Ihre Bearbeitung macht klarer, worum es geht: Sie haben immer noch das obige Problem (dass Sie einen p-Wert als hintere Wahrscheinlichkeit behandeln, wenn dies nicht der Fall ist). Es ist wichtig anzumerken, dass dies keine subtile philosophische Unterscheidung ist (wie Sie meiner Meinung nach mit Ihrer Diskussion über die Lottoscheine implizieren): Sie hat enorme praktische Auswirkungen auf jede Interpretation von p-Werten.
Es gibt jedoch eine Transformation, die Sie für p-Werte durchführen können, um zu dem zu gelangen, wonach Sie suchen. Diese wird als lokale Rate falscher Entdeckungen bezeichnet. (Wie in diesem schönen Artikel beschrieben , ist es das häufigere Äquivalent der "posterioren Fehlerwahrscheinlichkeit". Stellen Sie sich das also so vor, wenn Sie möchten.)
Lassen Sie uns mit einem konkreten Beispiel arbeiten. Angenommen, Sie führen einen T-Test durch, um festzustellen, ob eine Stichprobe mit 10 Zahlen (aus einer Normalverteilung) einen Mittelwert von 0 hat (ein zweiseitiger T-Test mit einer Stichprobe). Lassen Sie uns zunächst sehen , was die p-Wert Verteilung aussieht , wenn die mittlere tatsächlich ist Null, mit einem kurzen R - Simulation:
Wie wir sehen können, haben Null-p-Werte eine gleichmäßige Verteilung (gleich wahrscheinlich an allen Punkten zwischen 0 und 1). Dies ist eine notwendige Bedingung für p-Werte: Genau das bedeuten p-Werte! (Wenn die Null wahr ist, besteht eine Wahrscheinlichkeit von 5%, dass sie kleiner als 0,05 ist, eine Wahrscheinlichkeit von 10%, dass sie weniger als 0,1 beträgt ...)
Betrachten wir nun die alternativen Hypothesenfälle, in denen die Null falsch ist. Das ist etwas komplizierter: Wenn die Null falsch ist, "wie falsch" ist sie? Der Mittelwert der Stichprobe ist nicht 0, aber 0,5? 1? 10? Variiert es zufällig, manchmal klein und manchmal groß? Nehmen wir der Einfachheit halber an, es ist immer gleich 0,5 (aber denken Sie daran, dass Komplikationen später wichtig sein werden):
Beachten Sie, dass die Verteilung jetzt nicht gleichmäßig ist: Sie wird in Richtung 0 verschoben! In Ihrem Kommentar erwähnen Sie eine "Asymmetrie", die Informationen gibt: Dies ist diese Asymmetrie.
Stellen Sie sich vor, Sie kennen beide Distributionen, arbeiten aber mit einem neuen Experiment und haben einen Prior, dass es eine 50% ige Chance gibt, dass es null ist, und 50%, dass es eine Alternative ist. Sie erhalten einen p-Wert von 0,7. Wie kann man daraus und aus dem p-Wert eine Wahrscheinlichkeit machen?
Was Sie tun sollten, ist Dichten zu vergleichen :
Und schauen Sie sich Ihren p-Wert an:
Dieses Verhältnis zwischen der Nulldichte und der alternativen Dichte kann verwendet werden, um die lokale Falschentdeckungsrate zu berechnen : Je höher die Null relativ zur Alternative ist, desto höher ist der lokale FDR. Das ist die Wahrscheinlichkeit, dass die Hypothese null ist (technisch gesehen hat sie eine strengere frequentistische Interpretation, aber wir werden sie hier einfach halten). Wenn das Wert sehr hoch ist, dann können Sie die Interpretation machen „die Nullhypothese an Sicherheit grenzender Wahrscheinlichkeit wahr ist.“ In der Tat können Sie einen Schwellenwert von 0,05 und 0,95 für den lokalen FDR festlegen: Dies hätte die Eigenschaften, nach denen Sie suchen. (Und da der lokale FDR mit dem p-Wert monoton ansteigt, werden diese, zumindest wenn Sie es richtig machen, zu einigen Schwellenwerten A und B führen, bei denen Sie sagen können: "
Jetzt kann ich Sie schon fragen hören: "Warum verwenden wir das nicht anstelle von p-Werten?" Zwei Gründe:
Für einen p-Wert-Test benötigen Sie keines von beiden, und mit einem p-Wert-Test können Sie weiterhin falsch positive Ergebnisse vermeiden (was der Hauptzweck ist). Nun, es ist möglich , diese beiden Werte in mehreren Hypothesentests zu schätzen, wenn man Tausende von p-Werten hat (wie ein Test für jeden von Tausenden von Genen: siehe dieses Papier oder dieses Papier zum Beispiel), aber nicht , wenn Sie mache einen einzigen Test.
Schließlich könnten Sie sagen: "Ist das Papier nicht immer noch falsch zu sagen, dass eine Replikation, die zu einem p-Wert über 0,05 führt, notwendigerweise falsch positiv ist?" Nun, obwohl es wahr ist, dass ein p-Wert von 0,04 und ein anderer p-Wert von 0,06 nicht wirklich bedeutet, dass das ursprüngliche Ergebnis falsch war, ist es in der Praxis eine vernünftige Metrik, die man auswählen muss. Aber auf jeden Fall könnten Sie froh sein zu wissen, dass andere ihre Zweifel daran haben! Das Papier, auf das Sie sich beziehen, ist in der Statistik etwas umstritten: Dieses Papier verwendet eine andere Methode und kommt zu einer ganz anderen Schlussfolgerung über die p-Werte aus der medizinischen Forschung, und dann wurde diese Studie von einigen prominenten Bayesianern kritisiert (und es geht rund und rund ...). Während Ihre Frage auf einigen fehlerhaften Annahmen über p-Werte basiert, untersucht sie meiner Meinung nach eine interessante Annahme seitens des von Ihnen zitierten Papiers.
quelle
Wahrscheinlich ist die wörtlich festgelegte Nullhypothese oftmals mehr als falsch, da Nullhypothesen am häufigsten buchstäblich Hypothesen mit Nullwirkung sind . (Einige nützliche Gegenbeispiele finden Sie in den Antworten auf: " Sind große Datenmengen für das Testen von Hypothesen ungeeignet? ") Philosophische Fragen wie der Schmetterlingseffekt gefährden die wörtliche Gültigkeit einer solchen Hypothese. Daher ist die Null im Allgemeinen als Vergleichsgrundlage für eine alternative Hypothese eines Effekts ungleich Null nützlich. Eine solche alternative Hypothese kann plausibler bleiben als die Null, nachdem Daten gesammelt wurden, die unwahrscheinlich gewesen wären, wenn die Null wahr gewesen wäre. Daher schließen Forscher die Unterstützung für eine alternative Hypothese normalerweise aus Beweisen gegen die Null, aber dies ist nicht das, was p-Werte direkt quantifizieren ( Wagenmakers, 2007 ) .
Wie Sie vermuten, hängt die statistische Signifikanz von der Stichprobengröße sowie der Effektgröße und -konsistenz ab. (Siehe @ gungs Antwort auf die aktuelle Frage: " Wie kann ein t-Test statistisch signifikant sein, wenn der mittlere Unterschied fast 0 beträgt? ") Die Fragen, die wir häufig an unsere Daten stellen möchten, lauten: "Wie wirkt sich dasp p
x
auf ausy
? "" Aus verschiedenen Gründen (einschließlich IMO, falsch konzipierten und anderweitig mangelhaften Bildungsprogrammen in der Statistik, insbesondere wie sie von Nicht-Statistikern gelehrt werden) stellen wir uns häufig stattdessen buchstäblich die lose verwandte Frage: "Wie hoch ist die Wahrscheinlichkeit, dass Daten wie meine zufällig ausgewählt werden?" aus einer Bevölkerung, in derx
nicht betroffen isty
Da die Daten sollten in der Regel empirisch tatsächliche Beobachtungen darstellen, sollten sie nicht falsch sein; Im Idealfall sollten nur Rückschlüsse auf sie diesem Risiko ausgesetzt sein. (Messfehler treten natürlich auch auf, aber dieses Problem liegt etwas außerhalb des Rahmens dieser Antwort. Abgesehen davon, dass ich es hier erwähne, lasse ich es ansonsten in Ruhe.) Es besteht immer das Risiko, dass eine falsch positive Schlussfolgerung gezogen wird, dass die Null weniger nützlich ist als die alternative Hypothese, zumindest wenn der Inferrer nicht weiß, dass die Null wahr ist. Nur in dem schwer vorstellbaren Umstand des Wissens, dass die Null buchstäblich wahr ist, wäre eine Schlussfolgerung, die eine alternative Hypothese begünstigt, definitiv falsch ... zumindest soweit ich es mir im Moment vorstellen kann.
Offensichtlich ist eine weit verbreitete Verwendung oder Konvention nicht die beste Autorität für epistemische oder inferentielle Gültigkeit. Sogar veröffentlichte Ressourcen sind fehlbar. siehe zum Beispiel Irrtum in der p-Wert-Definition . Ihre Referenz ( Hurlbert & Lombardi, 2009 ) bietet auch eine interessante Darstellung dieses Prinzips (Seite 322):
Betreff: Ihre Multiple-Choice-Frage wähle ich aus
d
. Sie haben vielleicht einige Konzepte hier falsch interpretiert, aber wenn ja, sind Sie sicherlich nicht allein, und ich überlasse das Urteil Ihnen, da nur Sie wissen, woran Sie wirklich glauben. Fehlinterpretationen implizieren ein gewisses Maß an Sicherheit, während das Stellen einer Frage das Gegenteil impliziert, und dieser Impuls, Fragen zu stellen, wenn sie unsicher sind, ist leider lobenswert und keineswegs allgegenwärtig. Diese Angelegenheit der menschlichen Natur macht die Unrichtigkeit unserer Konventionen leider nicht harmlos und verdient Beschwerden wie die hier genannten. (Zum Teil danke Ihnen!) Ihr Vorschlag ist jedoch auch nicht vollständig korrekt.Verweise
- Goodman, SN (1992). Ein Kommentar zu Replikation, P- Werten und Beweisen. Statistics in Medicine, 11 (7), 875–879.
- Goodman, SN (2001). Von P- Werten und Bayes: Ein bescheidener Vorschlag. Epidemiology, 12 (3), 295–297. Abgerufen von http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .
- Goodman, S. (2008). Ein schmutziges Dutzend: Zwölf P- Wert-Missverständnisse. Seminare in Hematology, 45 (3), 135–140. Abgerufen von http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .
- P. Gorroochurn, SE Hodge, GA Heiman, M. Durner & DA Greenberg (2007). Nichtreplikation von Assoziationsstudien: „Pseudofehler“ zu replizieren? Genetics in Medicine, 9 (6), 325–331. Abgerufen von http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, SH & Lombardi, CM (2009). Endgültiger Zusammenbruch des neyman-Pearson-entscheidungstheoretischen Rahmens und Aufstieg des NeoFisherian. Annales Zoologici Fennici, 46 (5), 311–349. Abgerufen von http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Lew, MJ (2013). Zu P oder nicht zu P: Über die Beweiskraft von P-Werten und ihren Platz in der wissenschaftlichen Folgerung. arXiv: 1311.0081 [stat.ME]. Abgerufen vonhttp://arxiv.org/abs/1311.0081 .
- Moyé, LA (2008). Bayesianer in klinischen Studien: Am Schalter eingeschlafen. Statistik in der Medizin, 27 (4), 469–482.
- Nuzzo, R. (2014, 12. Februar). Wissenschaftliche Methode: Statistische Fehler. Nature News, 506 (7487). Abgerufen von http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .
- Wagenmakers, EJ (2007). Eine praktische Lösung für die allgegenwärtigen Probleme der p- Werte. Psychonomic Bulletin & Review, 14 (5), 779–804. Abgerufen von http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .
quelle