Warum werden 0,05 <p <0,95 Ergebnisse als falsch positiv bezeichnet?

Bearbeiten: Die Grundlage meiner Frage ist fehlerhaft, und ich muss einige Zeit damit verbringen, herauszufinden, ob es überhaupt sinnvoll sein kann.

Edit 2: Klarstellung, dass ich erkenne, dass ein p-Wert kein direktes Maß für die Wahrscheinlichkeit einer Nullhypothese ist, sondern dass ich davon ausgehe, dass eine Hypothese umso wahrscheinlicher ist, je näher ein p-Wert an 1 liegt wurde für experimentelle Tests ausgewählt, deren entsprechende Nullhypothese wahr ist. Je näher ein p-Wert an 0 liegt, desto wahrscheinlicher ist es, dass eine Hypothese für experimentelle Tests ausgewählt wurde, deren entsprechende Nullhypothese falsch ist. Ich kann nicht sehen, wie dies falsch ist, es sei denn, die Menge aller Hypothesen (oder aller für Experimente ausgewählten Hypothesen) ist irgendwie pathologisch.

Edit 3: Ich glaube, ich verwende immer noch keine klare Terminologie, um meine Frage zu stellen. Wenn Lotterienummern ausgelesen werden und Sie sie einzeln Ihrem Ticket zuordnen, ändert sich etwas. Die Wahrscheinlichkeit, dass Sie gewonnen haben, ändert sich nicht, aber die Wahrscheinlichkeit, dass Sie das Radio ausschalten können, ändert sich. Es gibt eine ähnliche Änderung, die auftritt, wenn Experimente durchgeführt werden, aber ich habe das Gefühl, dass die von mir verwendete Terminologie - "p-Werte ändern die Wahrscheinlichkeit, dass eine echte Hypothese gewählt wurde" - nicht die richtige Terminologie ist.

Bearbeiten 4: Ich habe zwei erstaunlich detaillierte und informative Antworten erhalten, die eine Fülle von Informationen enthalten, die ich durcharbeiten kann. Ich werde sie beide ab und zu abstimmen und dann zurückkommen, um eine zu akzeptieren, wenn ich aus beiden Antworten genug gelernt habe, um zu wissen, dass sie meine Frage entweder beantwortet oder ungültig gemacht haben. Diese Frage öffnete eine viel größere Dose Würmer als die, die ich erwartet hatte zu essen.

In Artikeln, die ich gelesen habe, habe ich nach der Validierung Ergebnisse mit p> 0,05 gesehen, die als "falsch positiv" bezeichnet wurden. Ist es jedoch nicht immer noch wahrscheinlich, dass ich eine Hypothese zum Testen mit einer falsch entsprechenden Nullhypothese ausgewählt habe, wenn die experimentellen Daten ap ~~<0,50 haben,~~ was niedrig, aber> 0,05 ist, und nicht sowohl die Nullhypothese als auch sind die statistisch unsichere / unbedeutende Forschungshypothese (angesichts des konventionellen statistischen Signifikanzgrenzwerts) irgendwo zwischen 0,05 <p < ~~0,95,~~ unabhängig von der Umkehrung von p <0,05, angesichts der Asymmetrie, auf die in @ NickStauners Link hingewiesen wird ?

Nennen wir diese Zahl A und definieren sie als den p-Wert, der dasselbe über die Wahrscheinlichkeit aussagt, dass Sie für Ihr Experiment / Ihre Analyse eine echte Nullhypothese ausgewählt haben, dass ein p-Wert von 0,05 über die Wahrscheinlichkeit aussagt, dass Sie ' Wir haben eine echte Nicht-Null-Hypothese für Ihr Experiment / Ihre Analyse ausgewählt. 0,05 <p <A sagt nicht nur: "Ihre Stichprobengröße war nicht groß genug, um die Frage zu beantworten, und Sie können die Bedeutung der Anwendung / der realen Welt erst beurteilen, wenn Sie eine größere Stichprobe erhalten und Ihre Statistik erhalten Bedeutung aussortiert "?

Mit anderen Worten, sollte es nicht richtig sein, ein Ergebnis definitiv falsch (und nicht einfach nicht unterstützt) zu nennen, wenn und nur wenn p> A?

Dies scheint mir unkompliziert zu sein, aber eine derart weit verbreitete Verwendung sagt mir, dass ich möglicherweise falsch liege. Bin ich:

a) Fehlinterpretation der Mathematik,
b) Beschwerde über eine harmlose, wenn nicht genau korrekte Konvention,
c) völlig korrekt oder
d) andere?

Ich erkenne, dass dies wie ein Aufruf zur Stellungnahme klingt, aber dies scheint eine Frage mit einer eindeutigen mathematisch korrekten Antwort zu sein (sobald ein Signifikanzgrenzwert festgelegt ist), die entweder ich oder (fast) alle anderen falsch verstehen.

hypothesis-testing p-value Andrew Klaassen
quelle

Hallo David. Hier ist das Papier, das mich zum Nachdenken gebracht hat: Link

Andrew Klaassen

In Ihrer ersten Zeile wollen Sie nicht stattdessen "... Ergebnisse ursprünglich mit schreiben

aber anschließend mit

nach der Validierung ..."? Ein Ergebnis mit

größer als der Schwellenwert

ansonsten alsnegativesErgebnis bezeichnet. Auch nach Ihren Änderungen ist Ihre Charakterisierung der Interpretation von

falsch. Ich möchte Ihnen daher empfehlen, sich einen Moment Zeit zu nehmen, um einigeunserer Beiträge zur Interpretation von p-Werten zulesen und zu überdenken, was Sie fragen möchten.

p < 0.05

$p\lt 0.05$

p \geq 0.05

$p\ge 0.05$

p

$p$

α

$\alpha$

p

$p$

whuber

Sie können Ihre Frage löschen, wenn Sie möchten, aber da Sie zwei positive Stimmen erhalten haben (oh, zum Teufel, machen wir es 3), eine positive Bewertung, und im Begriff sind, eine weitere Antwort von "Ihrer wirklich" zu erhalten, bitte ich Sie, sie zu verlassen aktiv und arbeite daran, wie du es für richtig hältst, obwohl ich respektvoll auf dein Recht verzichte, zu tun, was du willst. Prost!

Nick Stauner

Ich stimme @Nick zu, Andrew: Sie haben hier eine überzeugende und provokative Frage, die einige Gedanken und Aufmerksamkeit erregt hat. Wir wären Ihnen daher sehr dankbar, wenn Sie sie auf dem Laufenden halten und, wenn Sie können, ein wenig verfeinern würden, um sich auf das zu konzentrieren Schlüsselfrage bezüglich der Interpretation von p-Werten. Der neuartige Teil ist, soweit ich das beurteilen kann, der Vorschlag, dass das Ablehnungskriterium auf einem großen p-Wert basieren sollte. Zu Ihrem Kommentar: Ein falsches Positiv tritt auf, wenn der Test signifikant ist, aber bekannt ist , dass die Nullhypothese wahr ist.

whuber

@whuber: Der für mich überzeugendere Hintergrundfokus liegt darauf, welches Ergebnis darauf hindeutet, dass ein Folgeexperiment mit einer größeren Stichprobe wahrscheinlich produktiv ist. Angesichts der bisherigen Antworten muss ich mich fragen, ob p-Werte überhaupt mit dieser Frage zusammenhängen könnten. Zu wissen, dass die Nullhypothese als Maß für ein falsches Positiv wahr ist: Wann würde man sagen, dass eine Nullhypothese außerhalb der Situation p> (1 - α) wahr ist?

Andrew Klaassen

Antworten:

Ihre Frage basiert auf einer falschen Prämisse:

Ist es nicht immer noch wahrscheinlicher, dass die Nullhypothese falsch ist, wenn p <0,50 ist?

Ein p-Wert ist keine Wahrscheinlichkeit, dass die Nullhypothese wahr ist. Wenn Sie beispielsweise tausend Fälle genommen haben, in denen die Nullhypothese wahr ist, hat die Hälfte davon p < .5. Diese Hälfte wird alle null sein.

In der Tat ist die Idee, p > .95dass die Nullhypothese "wahrscheinlich wahr" ist, ebenso irreführend. Wenn die Nullhypothese wahr ist, ist die Wahrscheinlichkeit p > .95genau die gleiche wie die Wahrscheinlichkeit, dass p < .05.

ETA: Ihre Bearbeitung macht klarer, worum es geht: Sie haben immer noch das obige Problem (dass Sie einen p-Wert als hintere Wahrscheinlichkeit behandeln, wenn dies nicht der Fall ist). Es ist wichtig anzumerken, dass dies keine subtile philosophische Unterscheidung ist (wie Sie meiner Meinung nach mit Ihrer Diskussion über die Lottoscheine implizieren): Sie hat enorme praktische Auswirkungen auf jede Interpretation von p-Werten.

Es gibt jedoch eine Transformation, die Sie für p-Werte durchführen können, um zu dem zu gelangen, wonach Sie suchen. Diese wird als lokale Rate falscher Entdeckungen bezeichnet. (Wie in diesem schönen Artikel beschrieben , ist es das häufigere Äquivalent der "posterioren Fehlerwahrscheinlichkeit". Stellen Sie sich das also so vor, wenn Sie möchten.)

Lassen Sie uns mit einem konkreten Beispiel arbeiten. Angenommen, Sie führen einen T-Test durch, um festzustellen, ob eine Stichprobe mit 10 Zahlen (aus einer Normalverteilung) einen Mittelwert von 0 hat (ein zweiseitiger T-Test mit einer Stichprobe). Lassen Sie uns zunächst sehen , was die p-Wert Verteilung aussieht , wenn die mittlere tatsächlich ist Null, mit einem kurzen R - Simulation:

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

Geben Sie hier die Bildbeschreibung ein

Wie wir sehen können, haben Null-p-Werte eine gleichmäßige Verteilung (gleich wahrscheinlich an allen Punkten zwischen 0 und 1). Dies ist eine notwendige Bedingung für p-Werte: Genau das bedeuten p-Werte! (Wenn die Null wahr ist, besteht eine Wahrscheinlichkeit von 5%, dass sie kleiner als 0,05 ist, eine Wahrscheinlichkeit von 10%, dass sie weniger als 0,1 beträgt ...)

Betrachten wir nun die alternativen Hypothesenfälle, in denen die Null falsch ist. Das ist etwas komplizierter: Wenn die Null falsch ist, "wie falsch" ist sie? Der Mittelwert der Stichprobe ist nicht 0, aber 0,5? 1? 10? Variiert es zufällig, manchmal klein und manchmal groß? Nehmen wir der Einfachheit halber an, es ist immer gleich 0,5 (aber denken Sie daran, dass Komplikationen später wichtig sein werden):

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

Geben Sie hier die Bildbeschreibung ein

Beachten Sie, dass die Verteilung jetzt nicht gleichmäßig ist: Sie wird in Richtung 0 verschoben! In Ihrem Kommentar erwähnen Sie eine "Asymmetrie", die Informationen gibt: Dies ist diese Asymmetrie.

Stellen Sie sich vor, Sie kennen beide Distributionen, arbeiten aber mit einem neuen Experiment und haben einen Prior, dass es eine 50% ige Chance gibt, dass es null ist, und 50%, dass es eine Alternative ist. Sie erhalten einen p-Wert von 0,7. Wie kann man daraus und aus dem p-Wert eine Wahrscheinlichkeit machen?

Was Sie tun sollten, ist Dichten zu vergleichen :

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

Und schauen Sie sich Ihren p-Wert an:

abline(v=.7, col="red", lty=2)

Geben Sie hier die Bildbeschreibung ein

Dieses Verhältnis zwischen der Nulldichte und der alternativen Dichte kann verwendet werden, um die lokale Falschentdeckungsrate zu berechnen : Je höher die Null relativ zur Alternative ist, desto höher ist der lokale FDR. Das ist die Wahrscheinlichkeit, dass die Hypothese null ist (technisch gesehen hat sie eine strengere frequentistische Interpretation, aber wir werden sie hier einfach halten). Wenn das Wert sehr hoch ist, dann können Sie die Interpretation machen „die Nullhypothese an Sicherheit grenzender Wahrscheinlichkeit wahr ist.“ In der Tat können Sie einen Schwellenwert von 0,05 und 0,95 für den lokalen FDR festlegen: Dies hätte die Eigenschaften, nach denen Sie suchen. (Und da der lokale FDR mit dem p-Wert monoton ansteigt, werden diese, zumindest wenn Sie es richtig machen, zu einigen Schwellenwerten A und B führen, bei denen Sie sagen können: "

Jetzt kann ich Sie schon fragen hören: "Warum verwenden wir das nicht anstelle von p-Werten?" Zwei Gründe:

Sie müssen sich für eine vorherige Wahrscheinlichkeit entscheiden, dass der Test null ist
Sie müssen die Dichte unter der Alternative kennen. Dies ist sehr schwer zu erraten, da Sie bestimmen müssen, wie groß Ihre Effektgrößen und Varianzen sein können und wie oft sie so sind!

Für einen p-Wert-Test benötigen Sie keines von beiden, und mit einem p-Wert-Test können Sie weiterhin falsch positive Ergebnisse vermeiden (was der Hauptzweck ist). Nun, es ist möglich , diese beiden Werte in mehreren Hypothesentests zu schätzen, wenn man Tausende von p-Werten hat (wie ein Test für jeden von Tausenden von Genen: siehe dieses Papier oder dieses Papier zum Beispiel), aber nicht , wenn Sie mache einen einzigen Test.

Schließlich könnten Sie sagen: "Ist das Papier nicht immer noch falsch zu sagen, dass eine Replikation, die zu einem p-Wert über 0,05 führt, notwendigerweise falsch positiv ist?" Nun, obwohl es wahr ist, dass ein p-Wert von 0,04 und ein anderer p-Wert von 0,06 nicht wirklich bedeutet, dass das ursprüngliche Ergebnis falsch war, ist es in der Praxis eine vernünftige Metrik, die man auswählen muss. Aber auf jeden Fall könnten Sie froh sein zu wissen, dass andere ihre Zweifel daran haben! Das Papier, auf das Sie sich beziehen, ist in der Statistik etwas umstritten: Dieses Papier verwendet eine andere Methode und kommt zu einer ganz anderen Schlussfolgerung über die p-Werte aus der medizinischen Forschung, und dann wurde diese Studie von einigen prominenten Bayesianern kritisiert (und es geht rund und rund ...). Während Ihre Frage auf einigen fehlerhaften Annahmen über p-Werte basiert, untersucht sie meiner Meinung nach eine interessante Annahme seitens des von Ihnen zitierten Papiers.

David Robinson
quelle

Hallo David. Gutes Argument. Ich werde daran arbeiten, meine Frage neu zu formulieren, um diesen Teil nicht falsch zu verstehen, und prüfen, ob ich immer noch ein Problem sehe.

Andrew Klaassen

@ David_Robinson: Wäre es richtig, den p-Wert als Fehlalarmrate in der Bayes'schen Regel zu verwenden und daraus Schlussfolgerungen über die Wahrscheinlichkeit der Forschung und / oder Nullhypothesen zu ziehen? Stellen Sie den Wert auf 50% ein und spielen Sie von dort aus schnell und locker? :-)

Andrew Klaassen

Ja, faszinierend! Können Sie es in Ihre Antwort einarbeiten? Es gibt jedoch eine Asymmetrie zwischen dem Verhalten von p, wenn null wahr ist, und dem, wenn p falsch ist, dass ~ einige Informationen über die Wahrscheinlichkeit geben muss, dass die Nullhypothese wahr ist, basierend auf dem aus den Daten extrahierten p-Wert. Wenn eine echte Nullhypothese gleichmäßig verteilte p-Werte erzeugt und eine echte Nicht-Nullhypothese p-Werte erzeugt, die gegen 0 verschoben sind, bedeutet das Herausziehen von ap = 0,01 Marmor ~ muss ~ darauf hindeuten, dass Sie mit größerer Wahrscheinlichkeit das Nicht ausgewählt haben -keine Menge an Experimenten, auch wenn sich die Wahrscheinlichkeit durch das Experiment nicht ändert.

Andrew Klaassen

@ AndrewKlaassen: Möglicherweise interessiert Sie das Konzept der "lokalen Rate falscher Entdeckungen". Es ist ein häufigeres Äquivalent zur Bayes'schen posterioren Wahrscheinlichkeit, dass die Null wahr ist. Es erfordert zwei Dinge: a) eine vorherige Wahrscheinlichkeit, dass die Null wahr ist (manchmal als pi0 bezeichnet), und b) eine Schätzung der Dichte für die alternative Hypothese. Beim Testen mehrerer Hypothesen (wenn Sie Tausende von p-Werten hatten) ist es möglich, beide anhand der Dichte zu schätzen. Wenn ich etwas mehr Zeit habe, kann ich eine tiefere Erklärung in meine Antwort einbauen.

David Robinson

@AndrewKlaassen: Siehe meine Bearbeitung, in der ich den lokalen FDR ausführlich erkläre, warum Sie auf diese Weise Ihren Wert "A" berechnen (obwohl Sie möglicherweise .05 ändern möchten, während Sie A berechnen) und warum er selten verwendet wird . Um einen Punkt zu verdeutlichen, der nicht wirklich in die Antwort passt: Ihr Beispiel mit dem Lottoschein missversteht den Punkt, den ich und andere gemacht haben. Wir haben uns nicht auf die Idee eingelassen, dass sich Wahrscheinlichkeiten mit neuen Informationen ändern (sowohl Bayesianer als auch Frequentisten haben ihre Interpretation davon): Der Punkt ist nur, dass Sie sie nicht richtig geändert haben!

David Robinson

^$\leftarrow$

$p>.05$ $p<.05$ $p>.05$ , das als falsch positiv bezeichnet wird, scheint ein Missverständnis des Signifikanztests der Nullhypothese zu widerspiegeln(NHST). Missverständnisse sind in der veröffentlichten Forschungsliteratur keine Seltenheit, da NHST notorisch kontraintuitiv ist. Dies ist einer der Sammelrufe der Bayesianischen Invasion (die ich unterstütze, aber nicht folge ... noch nicht). Ich habe bis vor kurzem selbst mit solchen falschen Eindrücken gearbeitet, deshalb sympathisiere ich am herzlichsten.

$p$ $p$ $p$ immer gegen die Null getestet wird, wenn andere Arten von Effektgrößen existieren ...?) so verschieden von der Nullhypothese wie die Stichprobe (n) aus derselben Population (en), die man getestet hat, um zu einer bestimmten zu gelangen $p$ $p$ ^{abzuschätzen, Wagenmakers, 2007))} unter anderem Vorteile und die Beseitigung umstrittener Nachteile. (Um fair zu sein, siehe " Was sind die Nachteile der Bayes'schen Analyse?"Sie haben auch kommentiert, um Artikel zu zitieren, die dort einige nette Antworten bieten könnten: ^{Moyé, 2008; Hurlbert & Lombardi, 2009. )}

Wahrscheinlich ist die wörtlich festgelegte Nullhypothese oftmals mehr als falsch, da Nullhypothesen am häufigsten buchstäblich Hypothesen mit Nullwirkung sind . (Einige nützliche Gegenbeispiele finden Sie in den Antworten auf: " Sind große Datenmengen für das Testen von Hypothesen ungeeignet? ") Philosophische Fragen wie der Schmetterlingseffekt gefährden die wörtliche Gültigkeit einer solchen Hypothese. Daher ist die Null im Allgemeinen als Vergleichsgrundlage für eine alternative Hypothese eines Effekts ungleich Null nützlich. Eine solche alternative Hypothese kann plausibler bleiben als die Null, nachdem Daten gesammelt wurden, die unwahrscheinlich gewesen wären, wenn die Null wahr gewesen wäre. Daher schließen Forscher die Unterstützung für eine alternative Hypothese normalerweise aus Beweisen gegen die Null, aber dies ist nicht das, was p-Werte direkt quantifizieren ^{( Wagenmakers, 2007 )} .

Wie Sie vermuten, hängt die statistische Signifikanz von der Stichprobengröße sowie der Effektgröße und -konsistenz ab. (Siehe @ gungs Antwort auf die aktuelle Frage: " Wie kann ein t-Test statistisch signifikant sein, wenn der mittlere Unterschied fast 0 beträgt? ") Die Fragen, die wir häufig an unsere Daten stellen möchten, lauten: "Wie wirkt sich das xauf aus y? "" Aus verschiedenen Gründen (einschließlich IMO, falsch konzipierten und anderweitig mangelhaften Bildungsprogrammen in der Statistik, insbesondere wie sie von Nicht-Statistikern gelehrt werden) stellen wir uns häufig stattdessen buchstäblich die lose verwandte Frage: "Wie hoch ist die Wahrscheinlichkeit, dass Daten wie meine zufällig ausgewählt werden?" aus einer Bevölkerung, in derx nicht betroffen isty $p$ $p$

$.05<p<.95$ $\ne$ - ein weiteres schmutziges Dutzend von Goodman (2008); Dies hängt wesentlich mehr von der Bedeutung der Daten ab, mit denen sich die statistische Signifikanz nur in begrenztem Umfang befasst. Siehe meine Antwort auf die obigen Fragen .

Sollte es nicht richtig sein, ein Ergebnis definitiv falsch zu nennen (anstatt einfach nicht unterstützt zu werden), wenn ... p> 0,95?

Da die Daten sollten in der Regel empirisch tatsächliche Beobachtungen darstellen, sollten sie nicht falsch sein; Im Idealfall sollten nur Rückschlüsse auf sie diesem Risiko ausgesetzt sein. (Messfehler treten natürlich auch auf, aber dieses Problem liegt etwas außerhalb des Rahmens dieser Antwort. Abgesehen davon, dass ich es hier erwähne, lasse ich es ansonsten in Ruhe.) Es besteht immer das Risiko, dass eine falsch positive Schlussfolgerung gezogen wird, dass die Null weniger nützlich ist als die alternative Hypothese, zumindest wenn der Inferrer nicht weiß, dass die Null wahr ist. Nur in dem schwer vorstellbaren Umstand des Wissens, dass die Null buchstäblich wahr ist, wäre eine Schlussfolgerung, die eine alternative Hypothese begünstigt, definitiv falsch ... zumindest soweit ich es mir im Moment vorstellen kann.

Offensichtlich ist eine weit verbreitete Verwendung oder Konvention nicht die beste Autorität für epistemische oder inferentielle Gültigkeit. Sogar veröffentlichte Ressourcen sind fehlbar. siehe zum Beispiel Irrtum in der p-Wert-Definition . Ihre Referenz ^{( Hurlbert & Lombardi, 2009 )} bietet auch eine interessante Darstellung dieses Prinzips ^{(Seite 322):}

StatSoft (2007) rühmt sich auf seiner Website, dass sein Online-Handbuch „die einzige Internetquelle für Statistiken ist, die von Encyclopedia Brittanica empfohlen wird“. Noch nie war es für "Misstrauensbehörde" so wichtig, wie der Autoaufkleber sagt. [Komisch kaputte URL in Hyperlink-Text konvertiert.]

$p$ $p$ _{Ich hoffe, ich kann Michael dazu bringen, sich hier einzuschalten, indem ich ihn so markiere, wie ich es getan habe (aber ich bin nicht sicher, ob Benutzer-Tags Benachrichtigungen senden, wenn sie bearbeitet werden - ich glaube nicht, dass Ihre im OP dies getan haben). Er ist vielleicht der einzige, der Nuzzo retten kann - sogar die Natur selbst! Helfen Sie uns Obi-Wan! (Und verzeihen Sie mir, wenn meine Antwort hier zeigt, dass ich die Auswirkungen Ihrer Arbeit immer noch nicht verstanden habe, was ich auf jeden Fall sicher bin ...)} Übrigens bietet Nuzzo auch eine faszinierende Selbstverteidigung und Widerlegung von Wagenmaakers "Problem 3": siehe Nuzzos "Wahrscheinliche Ursache" und unterstützende Zitate ^{( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner & Greenberg, 2007 )} . Diese könnten nur die Antwort enthalten, die Sie '

Betreff: Ihre Multiple-Choice-Frage wähle ich aus d. Sie haben vielleicht einige Konzepte hier falsch interpretiert, aber wenn ja, sind Sie sicherlich nicht allein, und ich überlasse das Urteil Ihnen, da nur Sie wissen, woran Sie wirklich glauben. Fehlinterpretationen implizieren ein gewisses Maß an Sicherheit, während das Stellen einer Frage das Gegenteil impliziert, und dieser Impuls, Fragen zu stellen, wenn sie unsicher sind, ist leider lobenswert und keineswegs allgegenwärtig. Diese Angelegenheit der menschlichen Natur macht die Unrichtigkeit unserer Konventionen leider nicht harmlos und verdient Beschwerden wie die hier genannten. (Zum Teil danke Ihnen!) Ihr Vorschlag ist jedoch auch nicht vollständig korrekt.

$p$ $p$ ⁾Ich bin bestenfalls eine schwache Autorität, und ich begrüße alle Korrekturen oder Ausarbeitungen, die andere zu dem, was ich hier gesagt habe, anbieten könnten. Alles, was ich abschließend sagen kann, ist, dass es wahrscheinlich eine mathematisch korrekte Antwort gibt, und es kann durchaus sein, dass die meisten Leute es falsch verstehen. Die richtige Antwort fällt sicherlich nicht leicht, wie die folgenden Referenzen zeigen ...

$p$ $p$

Verweise

_{- Goodman, SN (1992). Ein Kommentar zu Replikation, P- Werten und Beweisen. Statistics in Medicine, 11 (7), 875–879.

- Goodman, SN (2001). Von P- Werten und Bayes: Ein bescheidener Vorschlag. Epidemiology, 12 (3), 295–297. Abgerufen von http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .

- Goodman, S. (2008). Ein schmutziges Dutzend: Zwölf P- Wert-Missverständnisse. Seminare in Hematology, 45 (3), 135–140. Abgerufen von http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .

- P. Gorroochurn, SE Hodge, GA Heiman, M. Durner & DA Greenberg (2007). Nichtreplikation von Assoziationsstudien: „Pseudofehler“ zu replizieren? Genetics in Medicine, 9 (6), 325–331. Abgerufen von http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .

- Hurlbert, SH & Lombardi, CM (2009). Endgültiger Zusammenbruch des neyman-Pearson-entscheidungstheoretischen Rahmens und Aufstieg des NeoFisherian. Annales Zoologici Fennici, 46 (5), 311–349. Abgerufen von http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .

- Lew, MJ (2013). Zu P oder nicht zu P: Über die Beweiskraft von P-Werten und ihren Platz in der wissenschaftlichen Folgerung. arXiv: 1311.0081 [stat.ME]. Abgerufen vonhttp://arxiv.org/abs/1311.0081 .

- Moyé, LA (2008). Bayesianer in klinischen Studien: Am Schalter eingeschlafen. Statistik in der Medizin, 27 (4), 469–482.

- Nuzzo, R. (2014, 12. Februar). Wissenschaftliche Methode: Statistische Fehler. Nature News, 506 (7487). Abgerufen von http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .

- Wagenmakers, EJ (2007). Eine praktische Lösung für die allgegenwärtigen Probleme der p- Werte. Psychonomic Bulletin & Review, 14 (5), 779–804. Abgerufen von http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .}

Nick Stauner
quelle

Ich arbeite immer noch an Ihrer sehr gründlichen Antwort (danke dafür), aber Ihre Erwähnung der "Bayesianischen Invasion" ließ mich an "Bayesianer in klinischen Studien: Schlafen am Schalter" denken , die hier als Kapitel 12 abgedruckt wurden. Ich wickle auch langsam meinen Kopf herum.

Andrew Klaassen

"Sie haben entweder eine Seite erreicht, die nicht zum Anzeigen verfügbar ist, oder Ihr Anzeigelimit für dieses Buch erreicht" ...?

Nick Stauner

Das ist bedauerlich. Wenn Sie Journalzugriff haben, finden Sie diesen auch hier . Eine Suche nach dem Ausdruck "Bayesianer brechen jetzt traditionelle Barrieren in klinischen Studien ab" könnte Sie auch dorthin bringen.

Andrew Klaassen

Der endgültige Zusammenbruch des neyman-Pearson-entscheidungstheoretischen Rahmens und der Aufstieg des neoFisherian enthalten auch eine unterhaltsame Geschichte von p-Werten und Angriffen auf die Verwendung der Bayes'schen Analyse in der Forschung. Ich kann nicht sagen, dass ich es gut genug verstehe, um es zu bewerten, aber ich denke, es ist gut, sich zumindest der Korrekturen für die aktuelle Begeisterung bewusst zu sein.

Andrew Klaassen

@ NickStauner Habe gerade diese Diskussion gefunden. Es ist nicht erforderlich, dass mindestens ein Konto falsch ist, wenn eine Reihe von Konten nicht übereinstimmt. Sie können auf verschiedenen Modellen basieren. [Wenn Sie ein Spiel sind, sollten Sie Bill Thompsons Buch The Nature of Statistical Evidence (2005) lesen.] Trotzdem ist mein Konto definitiv richtig ;-) (Obwohl erst heute Morgen wieder von einem Tagebuch abgelehnt.) Ich fand das Nuzzo-Papier dazu nachlässig und möglicherweise irreführend sein.

Michael Lew