Warum verwenden Menschen p-Werte anstelle der Berechnung der Wahrscheinlichkeit für das gegebene Modell?

43

Grob gesagt ergibt ein p-Wert eine Wahrscheinlichkeit für das beobachtete Ergebnis eines Experiments, wenn die Hypothese (Modell) gegeben ist. Mit dieser Wahrscheinlichkeit (p-Wert) wollen wir unsere Hypothese beurteilen (wie wahrscheinlich es ist). Aber wäre es nicht natürlicher, die Wahrscheinlichkeit der Hypothese unter Berücksichtigung des beobachteten Ergebnisses zu berechnen?

In mehr Details. Wir haben eine Münze. Wir drehen es 20 Mal und wir bekommen 14 Köpfe (14 von 20 nenne ich "Ergebnis des Experiments"). Nun ist unsere Hypothese, dass die Münze fair ist (Wahrscheinlichkeiten von Kopf und Schwanz sind gleich). Jetzt berechnen wir den p-Wert, der der Wahrscheinlichkeit entspricht, in 20 Münzwürfen 14 oder mehr Köpfe zu erhalten. OK, jetzt haben wir diese Wahrscheinlichkeit (0,058) und wir wollen diese Wahrscheinlichkeit verwenden, um unser Modell zu beurteilen (wie ist es wahrscheinlich, dass wir eine faire Münze haben).

Aber wenn wir die Wahrscheinlichkeit des Modells schätzen wollen, warum berechnen wir dann nicht die Wahrscheinlichkeit des Modells angesichts des Experiments? Warum berechnen wir die Wahrscheinlichkeit des Experiments anhand des Modells (p-Wert)?

römisch
quelle
Sie müssten Ihr Experiment noch irgendwie modellieren, um die Wahrscheinlichkeitsfunktion berechnen zu können.
Raskolnikov
11
Pete Dixon schrieb 1998 einen Artikel mit dem Titel "Warum Wissenschaftler p-Werte schätzen " ( psychonomic.org/backissues/1631/R382.pdf ), der eine informative Lektüre sein könnte. Ein gutes Follow-up wäre der 2004 von Glover & Dixon veröffentlichte Artikel über die Wahrscheinlichkeitsquote als Ersatzkennzahl ( pbr.psychonomic-journals.org/content/11/5/791.full.pdf ).
Mike Lawrence
2
Mike, das sieht verdächtig nach einer guten Antwort für mich aus. Was macht es in den Kommentaren?
Matt Parker
John D Cook hat eine ausgezeichnete Antwort auf eine Frage von mir gepostet, die Sie meiner
doug
Die Leute verwenden keine p-Werte, die Statistiker. (Konnte einem markigen Sprichwort nicht widerstehen, das auch wahr ist. Natürlich verliert jedes Nomen seine Markigkeit, sobald Sie es richtig qualifizieren.)
Wayne,

Antworten:

31

Die Berechnung der Wahrscheinlichkeit, dass die Hypothese korrekt ist, passt nicht gut in die häufigste Definition einer Wahrscheinlichkeit (eine langfristige Häufigkeit), die angenommen wurde, um die angebliche Subjektivität der Bayes'schen Definition einer Wahrscheinlichkeit zu vermeiden. Die Wahrheit einer bestimmten Hypothese ist keine Zufallsvariable, sie ist entweder wahr oder nicht und hat keine langfristige Häufigkeit. Es ist in der Tat natürlicher, sich für die Wahrscheinlichkeit der Wahrheit der Hypothese zu interessieren, was meiner Meinung nach der Grund ist, warum p-Werte oft als die Wahrscheinlichkeit, dass die Nullhypothese wahr ist, falsch interpretiert werden. Ein Teil der Schwierigkeit besteht darin, dass wir nach der Bayes-Regel wissen, dass Sie zur Berechnung der hinteren Wahrscheinlichkeit, dass eine Hypothese wahr ist, mit einer vorherigen Wahrscheinlichkeit beginnen müssen, dass die Hypothese wahr ist.

Ein Bayesianer würde die Wahrscheinlichkeit berechnen, dass die Hypothese wahr ist, wenn die Daten (und seine / ihre vorherige Überzeugung) gegeben sind.

Bei der Entscheidung zwischen frequentistischen und bayesianischen Ansätzen ist im Wesentlichen zu entscheiden, ob die vermeintliche Subjektivität des bayesianischen Ansatzes abscheulicher ist als die Tatsache, dass der frequentistische Ansatz im Allgemeinen keine direkte Antwort auf die Frage gibt, die Sie tatsächlich stellen möchten - aber es gibt Raum für beide.

Bei der Frage, ob eine Münze fair ist, dh die Wahrscheinlichkeit eines Kopfes gleich der Wahrscheinlichkeit eines Schwanzes ist, haben wir auch ein Beispiel für eine Hypothese, von der wir wissen, dass sie in der realen Welt von Anfang an mit ziemlicher Sicherheit falsch ist. Die beiden Seiten der Münze sind nicht symmetrisch, daher sollten wir eine leichte Asymmetrie der Wahrscheinlichkeiten von Kopf und Zahl erwarten. Wenn die Münze den Test "besteht", bedeutet dies nur, dass wir nicht genügend Beobachtungen haben, um dies zu können Schliessen Sie, was wir bereits als wahr erkannt haben - dass die Münze sehr leicht voreingenommen ist!

Dikran Beuteltier
quelle
4
Tatsächlich sind die meisten Münzen sehr fair und es ist schwierig, eine physikalisch plausible Methode zu finden, um sie stark zu verzerren
Ben Bolker
8
Sehr fair zu sein ist nicht dasselbe wie genau fair zu sein, was die Nullhypothese ist. Ich habe auf eine der Besonderheiten des Hypothesentests hingewiesen, nämlich dass wir oft wissen, dass die Nullhypothese falsch ist, sie aber trotzdem verwenden. Ein praktischerer Test würde darauf abzielen, festzustellen, ob es Anzeichen dafür gibt, dass die Münze erheblich verzerrt ist, und nicht, dass die Münze erheblich verzerrt ist.
Dikran Marsupial
1
Hallo, vielleicht irre ich mich, aber ich dachte in der Wissenschaft, man kann nie sagen, dass die alternative Hypothese wahr ist, man kann nur sagen, dass die Nullhypothese abgelehnt wird und man akzeptiert die alternative Hypothese. Für mich spiegelt der p-Wert die Wahrscheinlichkeit wider, dass Sie einen Fehler vom Typ 1 machen, dh, dass Sie die Alternativhypothese ablehnen und die Nullhypothese akzeptieren (sagen wir p = 0,05 oder 5% der Zeit). Es ist wichtig, zwischen Typ 1 zu unterscheiden Fehler und Typ-2-Fehler und die Rolle, die Macht bei der Modellierung von Ereignissen spielt
user2238
3
Für häufige Tests würde ich eine noch schwächere Aussage verwenden, nämlich dass Sie entweder "die Nullhypothese ablehnen" oder "die Nullhypothese nicht ablehnen" und nichts akzeptieren. Der entscheidende Punkt ist, dass Sie (wie im Fall der voreingenommenen Münze) manchmal a priori wissen, dass die Nullhypothese nicht wahr ist. in diesem Fall wäre es seltsam, es zu "akzeptieren". Frequentistische Tests weisen Fehlerraten vom Typ I und Typ II auf, aber das bedeutet nicht, dass sie von der Wahrscheinlichkeit sprechen können, dass eine bestimmte Hypothese wie im OP wahr ist.
Dikran Beuteltier
2
@ user2238 Der p-Wert gibt die Wahrscheinlichkeit eines Fehlers vom Typ I nur an, wenn die Nullhypothese "einfach" (nicht zusammengesetzt) ​​und zufällig wahr ist. Zum Beispiel garantiert bei einem einseitigen Test, ob eine Münze in Richtung der Schwänze vorgespannt ist ( ), die Verwendung einer doppelköpfigen Münze, dass die Wahrscheinlichkeit eines Typ-I-Fehlers Null ist, obwohl der p-Wert von 0 ist Jede endliche Stichprobe ist ungleich Null. H0:p<0.5
whuber
18

Es gibt nichts Schöneres, als eine wirklich alte Frage zu beantworten, aber hier ist es ....

p-Werte sind fast gültige Hypothesentests. Dies ist ein leicht angepasster Auszug aus Jaynes 'Wahrscheinlichkeitstheorie-Buch von 2003 (Repetitive Experimente: Wahrscheinlichkeit und Häufigkeit). Angenommen, wir haben eine Nullhypothese , die wir testen möchten. Wir haben Daten D und Vorinformationen ich . Angenommen, es gibt eine nicht spezifizierte Hypothese H A , gegen die wir H 0 testen werden . Das hintere Quotenverhältnis für H A gegen H 0 ist dann gegeben durch:H0DIHAH0HAH0

P(HA|DI)P(H0|DI)=P(HA|I)P(H0|I)×P(D|HAI)P(D|H0I)

Jetzt ist der erste Term auf der rechten Seite unabhängig von den Daten, sodass die Daten das Ergebnis nur über den zweiten Term beeinflussen können. Jetzt können wir immer eine alternative Hypothese erfinden , bei der P ( D | H A I ) = 1 ist - eine "perfekte Anpassung" -Hypothese. Somit können wir 1 verwendenHAP(D|HAI)=1 als Maß dafür, wie gut die Daten eine alternative Hypothese über die Null stützen könnten. Es gibt keine alternative Hypothese, dass die Daten überH0um mehr als1stützen könnten1P(D|H0I)H0 . Wir können auch die Klasse der Alternativen einschränken, und die Änderung besteht darin, dass die1durch die maximale Wahrscheinlichkeit (einschließlich Normalisierungskonstanten) innerhalb dieser Klasse ersetzt wird. WennP(D|H0I)zu klein wird, beginnen wir an der Null zu zweifeln, weil die Anzahl der Alternativen zwischenH0undHAzunimmt (einschließlich einiger mit nicht zu vernachlässigenden vorherigen Wahrscheinlichkeiten). Aber das ist so ziemlich das, was mit p-Werten gemacht wird, aber mit einer Ausnahme: Wir berechnen nicht die Wahrscheinlichkeit fürt(1P(D|H0I)1P(D|H0I)H0HA für irgendeine Statistik t ( D ) und irgendeine "schlechte" Region der Statistik. Wir berechnen die Wahrscheinlichkeit für D - die Information, die wir tatsächlich haben, und nicht eine Teilmenge davon, t ( D ) .t(D)>t0t(D)Dt(D)

D{x1,,xN}xiNormal(μ,σ2)IH0:μ=μ0. Dann haben wir nach einer kleinen Rechnung:

P(D|H0I)=(2πσ2)N2exp(N[s2+(x¯μ0)2]2σ2)

x¯=1Ni=1Nxis2=1Ni=1N(xix¯)2P(D|H0I)μ0=x¯

P(D|HAI)=(2πσ2)N2exp(Ns22σ2)

Also nehmen wir das Verhältnis dieser beiden und wir erhalten:

P(D|HAI)P(D|H0I)=(2πσ2)N2exp(Ns22σ2)(2πσ2)N2exp(Ns2+N(x¯μ0)22σ2)=exp(z22)

z=Nx¯μ0σ|z|x¯

x¯X¯Normal(μ,σ2N)X¯x¯|X¯μ0||X¯μ0||x¯μ0|

p-value=P(|X¯μ0||x¯μ0||H0)
=1P[N|x¯μ0|σNX¯μ0σN|x¯μ0|σ|H0]
=1P(|z|Z|z||H0)=2[1Φ(|z|)]

|z|

Obwohl beide in diesem Beispiel einfach zu bewerkstelligen sind, sind sie in komplizierteren Fällen nicht immer so einfach. In einigen Fällen kann es einfacher sein, die richtige Statistik auszuwählen und deren Stichprobenverteilung zu berechnen. In anderen Fällen ist es möglicherweise einfacher, die Klasse der Alternativen zu definieren und über diese Klasse zu maximieren.

Dieses einfache Beispiel erklärt eine große Menge von p-Wert-basierten Tests, einfach weil so viele Hypothesentests von der "ungefähr normalen" Art sind. Es bietet auch eine ungefähre Antwort auf Ihr Münzproblem (unter Verwendung der normalen Annäherung an das Binom). Es zeigt auch, dass p-Werte Sie in diesem Fall nicht in die Irre führen, zumindest was das Testen einer einzelnen Hypothese angeht. In diesem Fall kann man sagen, dass ein p-Wert ein Beweismaß gegen die Nullhypothese ist.

0.193.870.05196.830.12.330.052.78

Wahrscheinlichkeitslogik
quelle
4
+1. "... die Auswahl einer Statistik ist gleichbedeutend mit der Definition der alternativen Hypothese, die Sie in Betracht ziehen", scheint mir eine tiefe Einsicht zu sein.
whuber
kk
1
@ faheemmitha- Sie haben Recht mit der kombinatorischen Explosion, dies tritt jedoch bei dem von mir beschriebenen Ansatz nicht auf (in der Tat können Sie zeigen, dass der Bayes-Ansatz effektiv Residuen definiert). Dies liegt daran, dass wir nur die Klasse definieren und dann maximieren müssen. Wir müssen nicht jede Alternative bewerten, sondern nur die beste finden.
Wahrscheinlichkeitsrechnung
Warum ist diese Antwort Community Wiki?
Amöbe sagt Reinstate Monica
10

Als ehemaliger Akademiker, der in die Praxis umgezogen ist, werde ich einen Versuch machen. Menschen verwenden p-Werte, weil sie nützlich sind. Sie können es nicht in lehrbuchartigen Beispielen für Münzwürfe sehen. Sicher, sie sind im Grunde nicht wirklich solide, aber vielleicht ist das nicht so notwendig, wie wir gerne denken, wenn wir akademisch denken. In der Welt der Daten sind wir von buchstäblich unendlich vielen möglichen Dingen umgeben, die als nächstes untersucht werden müssen. Bei p-Wert-Berechnungen benötigen Sie lediglich eine Vorstellung davon, was uninteressant ist, und eine numerische Heuristik, welche Art von Daten interessant sein könnten (naja, plus ein Wahrscheinlichkeitsmodell für uninteressante Daten). Dann können wir die Dinge einzeln oder gemeinsam ganz einfach scannen und dabei den Großteil des Uninteressanten zurückweisen. Der p-Wert erlaubt uns zu sagen: "Wenn ich nicht viel Wert darauf lege, anders darüber nachzudenken,

Internet
quelle
10

Ihre Frage ist ein großartiges Beispiel für das Denken von Frequentisten und eigentlich ganz natürlich. Ich habe dieses Beispiel in meinen Kursen verwendet, um die Natur von Hypothesentests zu demonstrieren. Ich bitte einen Freiwilligen, die Ergebnisse eines Münzwurfs vorherzusagen. Egal was das Ergebnis ist, ich nehme eine "richtige" Vermutung auf. Wir machen das so oft, bis die Klasse misstrauisch wird.

Jetzt haben sie ein Nullmodell im Kopf. Sie gehen davon aus, dass die Münze fair ist. Wenn man davon ausgeht, dass die Annahme von 50% richtig ist, wenn alles fair ist, weckt jede aufeinanderfolgende richtige Schätzung den Verdacht, dass das faire Münzmodell falsch ist. Ein paar richtige Vermutungen und sie akzeptieren die Rolle des Zufalls. Nach 5 oder 10 richtigen Vermutungen beginnt die Klasse immer zu vermuten, dass die Chance auf eine faire Münze gering ist. So liegt es in der Natur des Hypothesentests nach dem frequentistischen Modell.

Es ist eine klare und intuitive Darstellung der Hypothesentests, die häufig durchgeführt werden. Es ist die Wahrscheinlichkeit der beobachteten Daten, wenn die Null wahr ist. Es ist eigentlich ganz natürlich, wie dieses einfache Experiment zeigt. Wir gehen davon aus, dass das Modell 50-50 ist, aber als Beweislage lehne ich dieses Modell ab und vermute, dass noch etwas anderes im Spiel ist.

Wenn die Wahrscheinlichkeit für das, was ich beobachte, bei dem von mir angenommenen Modell (dem p-Wert) gering ist, dann habe ich ein gewisses Vertrauen, mein angenommenes Modell abzulehnen. Daher ist ein p-Wert ein nützliches Maß für den Beweis gegen mein angenommenes Modell unter Berücksichtigung der Rolle des Zufalls.

Ein Haftungsausschluss: Ich habe diese Übung aus einem längst vergessenen Artikel in einer der ASA-Zeitschriften übernommen.

Brett
quelle
Brett, das ist interessant und ein großartiges Beispiel. Das Modell hier scheint mir zu sein, dass die Leute erwarten, dass die Reihenfolge von Kopf und Zahl zufällig auftritt. Wenn ich zum Beispiel 5 Köpfe hintereinander sehe, schließe ich, dass dies ein Beispiel für einen nicht zufälligen Prozess ist. Tatsächlich, und ich kann mich hier irren, beträgt die Wahrscheinlichkeit eines toin coss (unter der Annahme von Zufälligkeit) 50% Heads und 50% Tails, und dies ist völlig unabhängig vom vorherigen Ergebnis. Der Punkt ist, dass, wenn wir 50000 Mal eine Münze geworfen haben und die ersten 25000 Köpfe waren, sofern die restlichen 25000 Schwänze waren, dies immer noch einen Mangel an Voreingenommenheit
widerspiegelt
@ user2238: Ihre letzte Aussage ist wahr, aber es wäre außerordentlich selten. In der Tat würde ein Durchlauf von 5 Köpfen in 5 Würfen nur 3% der Zeit passieren, wenn die Münze fair ist. Es ist immer möglich, dass die Null richtig ist und wir ein seltenes Ereignis erlebt haben.
Brett
6

"Grob gesagt ergibt der p-Wert eine Wahrscheinlichkeit für das beobachtete Ergebnis eines Experiments, wenn die Hypothese (Modell) gegeben ist."

aber das tut es nicht. Nicht einmal grob - das täuscht eine wesentliche Unterscheidung vor.

Das Modell ist nicht spezifiziert, wie Raskolnikov betont, aber nehmen wir an, Sie meinen ein Binomialmodell (unabhängige Münzwürfe, festgelegte unbekannte Münzwürfe). Die Hypothese ist die Behauptung, dass der relevante Parameter in diesem Modell, die Neigung oder Wahrscheinlichkeit von Köpfen, 0,5 ist.

"Mit dieser Wahrscheinlichkeit (p-Wert) wollen wir unsere Hypothese beurteilen (wie wahrscheinlich es ist)"

Möglicherweise möchten wir dieses Urteil fällen, aber ein p-Wert wird uns nicht dabei helfen (und wurde auch nicht dafür entwickelt).

"Aber wäre es nicht natürlicher, die Wahrscheinlichkeit der Hypothese angesichts des beobachteten Ergebnisses zu berechnen?"

Möglicherweise würde es. Siehe die gesamte Diskussion von Bayes oben.

"[...] Nun berechnen wir den p-Wert, der der Wahrscheinlichkeit entspricht, 14 oder mehr Köpfe in 20 Münzwürfen zu erhalten. OK, jetzt haben wir diese Wahrscheinlichkeit (0,058) und wollen diese Wahrscheinlichkeit dazu nutzen Beurteilen Sie unser Modell (wie wahrscheinlich ist es, dass wir eine faire Münze haben). "

"von unserer Hypothese ausgehen, dass unser Modell wahr ist", aber im Wesentlichen: ja. Große p-Werte zeigen an, dass das Verhalten der Münze mit der Hypothese übereinstimmt, dass es fair ist. (Sie stimmen auch in der Regel mit der Annahme überein, dass die Hypothese falsch ist, dass sie jedoch so nah an der Wahrheit liegt, dass wir nicht genügend Daten haben, um sie zu ermitteln; siehe „statistische Aussagekraft“.)

"Aber wenn wir die Wahrscheinlichkeit des Modells schätzen wollen, warum berechnen wir die Wahrscheinlichkeit des Modells bei gegebenem Experiment nicht? Warum berechnen wir die Wahrscheinlichkeit des Experiments bei gegebenem Modell (p-Wert)?"

Wir berechnen die Wahrscheinlichkeit der experimentellen Ergebnisse bei der Hypothese in diesem Aufbau nicht. Schließlich ist die Wahrscheinlichkeit nur etwa 0.176 zu sehen genau 10 Köpfe , wenn die Hypothese wahr ist, und das ist der am meisten wahrscheinliche Wert. Dies ist überhaupt keine Menge von Interesse.

Es ist auch relevant, dass wir die Wahrscheinlichkeit des Modells normalerweise auch nicht schätzen. Sowohl frequentistische als auch bayesianische Antworten gehen normalerweise davon aus, dass das Modell wahr ist, und lassen Rückschlüsse auf seine Parameter zu. Tatsächlich wären nicht alle Bayesianer grundsätzlich an der Wahrscheinlichkeit des Modells interessiert, dh der Wahrscheinlichkeit, dass die gesamte Situation durch eine Binomialverteilung gut modelliert wurde. Sie führen möglicherweise viele Modellprüfungen durch, fragen jedoch nie, wie wahrscheinlich das Binomial im Bereich anderer möglicher Modelle war. Bayesianer, die sich für Bayes-Faktoren interessieren, sind interessiert, andere weniger.

Conjugateprior
quelle
2
Hmm, zwei Stimmen weniger. Wenn die Antwort so schlecht ist, wäre es nett, einen Kommentar zu haben.
Conjugateprior
Mir hat diese Antwort gefallen. Manchmal stimmen die Leute die Antworten ab, weil sie nicht mit einem Lehrbuch vergleichbar sind, und versuchen, alle Websites von Diskussionen zu befreien, die einen Hauch von gesundem Menschenverstand oder Laien wie Beschreibung enthalten.
Vass,
Ich habe nicht abgelehnt, aber ich denke, ein Problem ist, dass Ihr Punkt nicht klar ist.
Elvis
3

p

  • p

  • p

  • p

Elvis
quelle
2

Wahrscheinlichkeit definieren . Ich meine es so. Bevor wir weiterkommen, müssen wir uns auf Bedingungen einigen.

DM

P(M|D)P(M,D)

106/28109

In der Praxis können Probleme mit bestimmten Erkrankungen und ihrer Funktionsweise dazu führen, dass Sie keine dieser Komponenten der Gelenkverteilung finden und diese nicht konditionieren können.

P(M,D)p=0.5P(p=0.5)=0B(0.5,0.5)B(1000,1000)0.528109/(28109+106)

Abgesehen von den Schwierigkeiten, über die richtigen Modelle zu sprechen, haben Bayes'sche Methoden nur begrenzte Möglichkeiten, mit Modellfehlspezifikationen umzugehen. Wenn Sie keine Gaußschen Fehler mögen oder nicht an die Unabhängigkeit von Münzwürfen glauben (Ihre Hand wird nach den ersten 10.000 oder so müde, also werfen Sie sie nicht so hoch wie die ersten 1.000 oder so oft), was die Wahrscheinlichkeiten beeinflussen kann), ist alles, was Sie in der Bayesianischen Welt tun können, ein komplizierteres Modell zu bauen - Stick Breaking Priors für normale Gemische, Splines in Wahrscheinlichkeiten im Laufe der Zeit, was auch immer. Es gibt jedoch keine direkte Analogie zu Huber-Sandwich-Standardfehlern, die explizit anerkennen, dass das Modell möglicherweise falsch spezifiziert ist, und bereit sind, dies zu berücksichtigen.

<Ω,F,P>ΩFσPAΩAFXt,t[0,1]{Xt>0,t[0,0.5]}{Xt>0,t{t1,t2,,tk}}kσ

StasK
quelle
1

Aber wenn wir die Wahrscheinlichkeit des Modells schätzen wollen, warum berechnen wir dann nicht die Wahrscheinlichkeit des Modells angesichts des Experiments?

Weil wir nicht wissen wie. Es sind unendlich viele Modelle möglich und ihr Wahrscheinlichkeitsraum ist nicht definiert.

Hier ist ein praktisches Beispiel. Angenommen, ich möchte das US-BIP prognostizieren. Ich bekomme die Zeitreihe und passe ein Modell an. Wie groß ist die Wahrscheinlichkeit, dass dieses Modell zutrifft?

Δlnyt=μ+et
μet

Bildbeschreibung hier eingeben

lnyt=ct+et
c

μ

Aksakal
quelle