Grob gesagt ergibt ein p-Wert eine Wahrscheinlichkeit für das beobachtete Ergebnis eines Experiments, wenn die Hypothese (Modell) gegeben ist. Mit dieser Wahrscheinlichkeit (p-Wert) wollen wir unsere Hypothese beurteilen (wie wahrscheinlich es ist). Aber wäre es nicht natürlicher, die Wahrscheinlichkeit der Hypothese unter Berücksichtigung des beobachteten Ergebnisses zu berechnen?
In mehr Details. Wir haben eine Münze. Wir drehen es 20 Mal und wir bekommen 14 Köpfe (14 von 20 nenne ich "Ergebnis des Experiments"). Nun ist unsere Hypothese, dass die Münze fair ist (Wahrscheinlichkeiten von Kopf und Schwanz sind gleich). Jetzt berechnen wir den p-Wert, der der Wahrscheinlichkeit entspricht, in 20 Münzwürfen 14 oder mehr Köpfe zu erhalten. OK, jetzt haben wir diese Wahrscheinlichkeit (0,058) und wir wollen diese Wahrscheinlichkeit verwenden, um unser Modell zu beurteilen (wie ist es wahrscheinlich, dass wir eine faire Münze haben).
Aber wenn wir die Wahrscheinlichkeit des Modells schätzen wollen, warum berechnen wir dann nicht die Wahrscheinlichkeit des Modells angesichts des Experiments? Warum berechnen wir die Wahrscheinlichkeit des Experiments anhand des Modells (p-Wert)?
quelle
Antworten:
Die Berechnung der Wahrscheinlichkeit, dass die Hypothese korrekt ist, passt nicht gut in die häufigste Definition einer Wahrscheinlichkeit (eine langfristige Häufigkeit), die angenommen wurde, um die angebliche Subjektivität der Bayes'schen Definition einer Wahrscheinlichkeit zu vermeiden. Die Wahrheit einer bestimmten Hypothese ist keine Zufallsvariable, sie ist entweder wahr oder nicht und hat keine langfristige Häufigkeit. Es ist in der Tat natürlicher, sich für die Wahrscheinlichkeit der Wahrheit der Hypothese zu interessieren, was meiner Meinung nach der Grund ist, warum p-Werte oft als die Wahrscheinlichkeit, dass die Nullhypothese wahr ist, falsch interpretiert werden. Ein Teil der Schwierigkeit besteht darin, dass wir nach der Bayes-Regel wissen, dass Sie zur Berechnung der hinteren Wahrscheinlichkeit, dass eine Hypothese wahr ist, mit einer vorherigen Wahrscheinlichkeit beginnen müssen, dass die Hypothese wahr ist.
Ein Bayesianer würde die Wahrscheinlichkeit berechnen, dass die Hypothese wahr ist, wenn die Daten (und seine / ihre vorherige Überzeugung) gegeben sind.
Bei der Entscheidung zwischen frequentistischen und bayesianischen Ansätzen ist im Wesentlichen zu entscheiden, ob die vermeintliche Subjektivität des bayesianischen Ansatzes abscheulicher ist als die Tatsache, dass der frequentistische Ansatz im Allgemeinen keine direkte Antwort auf die Frage gibt, die Sie tatsächlich stellen möchten - aber es gibt Raum für beide.
Bei der Frage, ob eine Münze fair ist, dh die Wahrscheinlichkeit eines Kopfes gleich der Wahrscheinlichkeit eines Schwanzes ist, haben wir auch ein Beispiel für eine Hypothese, von der wir wissen, dass sie in der realen Welt von Anfang an mit ziemlicher Sicherheit falsch ist. Die beiden Seiten der Münze sind nicht symmetrisch, daher sollten wir eine leichte Asymmetrie der Wahrscheinlichkeiten von Kopf und Zahl erwarten. Wenn die Münze den Test "besteht", bedeutet dies nur, dass wir nicht genügend Beobachtungen haben, um dies zu können Schliessen Sie, was wir bereits als wahr erkannt haben - dass die Münze sehr leicht voreingenommen ist!
quelle
Es gibt nichts Schöneres, als eine wirklich alte Frage zu beantworten, aber hier ist es ....
p-Werte sind fast gültige Hypothesentests. Dies ist ein leicht angepasster Auszug aus Jaynes 'Wahrscheinlichkeitstheorie-Buch von 2003 (Repetitive Experimente: Wahrscheinlichkeit und Häufigkeit). Angenommen, wir haben eine Nullhypothese , die wir testen möchten. Wir haben Daten D und Vorinformationen ich . Angenommen, es gibt eine nicht spezifizierte Hypothese H A , gegen die wir H 0 testen werden . Das hintere Quotenverhältnis für H A gegen H 0 ist dann gegeben durch:H0 D ich HEIN H0 HA H0
Jetzt ist der erste Term auf der rechten Seite unabhängig von den Daten, sodass die Daten das Ergebnis nur über den zweiten Term beeinflussen können. Jetzt können wir immer eine alternative Hypothese erfinden , bei der P ( D | H A I ) = 1 ist - eine "perfekte Anpassung" -Hypothese. Somit können wir 1 verwendenHA P(D|HAI)=1 als Maß dafür, wie gut die Daten eine alternative Hypothese über die Null stützen könnten. Es gibt keine alternative Hypothese, dass die Daten überH0um mehr als1stützen könnten1P(D|H0I) H0 . Wir können auch die Klasse der Alternativen einschränken, und die Änderung besteht darin, dass die1durch die maximale Wahrscheinlichkeit (einschließlich Normalisierungskonstanten) innerhalb dieser Klasse ersetzt wird. WennP(D|H0I)zu klein wird, beginnen wir an der Null zu zweifeln, weil die Anzahl der Alternativen zwischenH0undHAzunimmt (einschließlich einiger mit nicht zu vernachlässigenden vorherigen Wahrscheinlichkeiten). Aber das ist so ziemlich das, was mit p-Werten gemacht wird, aber mit einer Ausnahme: Wir berechnen nicht die Wahrscheinlichkeit fürt(1P(D|H0I) 1 P(D|H0I) H0 HA für irgendeine Statistik t ( D ) und irgendeine "schlechte" Region der Statistik. Wir berechnen die Wahrscheinlichkeit für D - die Information, die wir tatsächlich haben, und nicht eine Teilmenge davon, t ( D ) .t(D)>t0 t(D) D t(D)
Also nehmen wir das Verhältnis dieser beiden und wir erhalten:
Obwohl beide in diesem Beispiel einfach zu bewerkstelligen sind, sind sie in komplizierteren Fällen nicht immer so einfach. In einigen Fällen kann es einfacher sein, die richtige Statistik auszuwählen und deren Stichprobenverteilung zu berechnen. In anderen Fällen ist es möglicherweise einfacher, die Klasse der Alternativen zu definieren und über diese Klasse zu maximieren.
Dieses einfache Beispiel erklärt eine große Menge von p-Wert-basierten Tests, einfach weil so viele Hypothesentests von der "ungefähr normalen" Art sind. Es bietet auch eine ungefähre Antwort auf Ihr Münzproblem (unter Verwendung der normalen Annäherung an das Binom). Es zeigt auch, dass p-Werte Sie in diesem Fall nicht in die Irre führen, zumindest was das Testen einer einzelnen Hypothese angeht. In diesem Fall kann man sagen, dass ein p-Wert ein Beweismaß gegen die Nullhypothese ist.
quelle
Als ehemaliger Akademiker, der in die Praxis umgezogen ist, werde ich einen Versuch machen. Menschen verwenden p-Werte, weil sie nützlich sind. Sie können es nicht in lehrbuchartigen Beispielen für Münzwürfe sehen. Sicher, sie sind im Grunde nicht wirklich solide, aber vielleicht ist das nicht so notwendig, wie wir gerne denken, wenn wir akademisch denken. In der Welt der Daten sind wir von buchstäblich unendlich vielen möglichen Dingen umgeben, die als nächstes untersucht werden müssen. Bei p-Wert-Berechnungen benötigen Sie lediglich eine Vorstellung davon, was uninteressant ist, und eine numerische Heuristik, welche Art von Daten interessant sein könnten (naja, plus ein Wahrscheinlichkeitsmodell für uninteressante Daten). Dann können wir die Dinge einzeln oder gemeinsam ganz einfach scannen und dabei den Großteil des Uninteressanten zurückweisen. Der p-Wert erlaubt uns zu sagen: "Wenn ich nicht viel Wert darauf lege, anders darüber nachzudenken,
quelle
Ihre Frage ist ein großartiges Beispiel für das Denken von Frequentisten und eigentlich ganz natürlich. Ich habe dieses Beispiel in meinen Kursen verwendet, um die Natur von Hypothesentests zu demonstrieren. Ich bitte einen Freiwilligen, die Ergebnisse eines Münzwurfs vorherzusagen. Egal was das Ergebnis ist, ich nehme eine "richtige" Vermutung auf. Wir machen das so oft, bis die Klasse misstrauisch wird.
Jetzt haben sie ein Nullmodell im Kopf. Sie gehen davon aus, dass die Münze fair ist. Wenn man davon ausgeht, dass die Annahme von 50% richtig ist, wenn alles fair ist, weckt jede aufeinanderfolgende richtige Schätzung den Verdacht, dass das faire Münzmodell falsch ist. Ein paar richtige Vermutungen und sie akzeptieren die Rolle des Zufalls. Nach 5 oder 10 richtigen Vermutungen beginnt die Klasse immer zu vermuten, dass die Chance auf eine faire Münze gering ist. So liegt es in der Natur des Hypothesentests nach dem frequentistischen Modell.
Es ist eine klare und intuitive Darstellung der Hypothesentests, die häufig durchgeführt werden. Es ist die Wahrscheinlichkeit der beobachteten Daten, wenn die Null wahr ist. Es ist eigentlich ganz natürlich, wie dieses einfache Experiment zeigt. Wir gehen davon aus, dass das Modell 50-50 ist, aber als Beweislage lehne ich dieses Modell ab und vermute, dass noch etwas anderes im Spiel ist.
Wenn die Wahrscheinlichkeit für das, was ich beobachte, bei dem von mir angenommenen Modell (dem p-Wert) gering ist, dann habe ich ein gewisses Vertrauen, mein angenommenes Modell abzulehnen. Daher ist ein p-Wert ein nützliches Maß für den Beweis gegen mein angenommenes Modell unter Berücksichtigung der Rolle des Zufalls.
Ein Haftungsausschluss: Ich habe diese Übung aus einem längst vergessenen Artikel in einer der ASA-Zeitschriften übernommen.
quelle
"Grob gesagt ergibt der p-Wert eine Wahrscheinlichkeit für das beobachtete Ergebnis eines Experiments, wenn die Hypothese (Modell) gegeben ist."
aber das tut es nicht. Nicht einmal grob - das täuscht eine wesentliche Unterscheidung vor.
Das Modell ist nicht spezifiziert, wie Raskolnikov betont, aber nehmen wir an, Sie meinen ein Binomialmodell (unabhängige Münzwürfe, festgelegte unbekannte Münzwürfe). Die Hypothese ist die Behauptung, dass der relevante Parameter in diesem Modell, die Neigung oder Wahrscheinlichkeit von Köpfen, 0,5 ist.
"Mit dieser Wahrscheinlichkeit (p-Wert) wollen wir unsere Hypothese beurteilen (wie wahrscheinlich es ist)"
Möglicherweise möchten wir dieses Urteil fällen, aber ein p-Wert wird uns nicht dabei helfen (und wurde auch nicht dafür entwickelt).
"Aber wäre es nicht natürlicher, die Wahrscheinlichkeit der Hypothese angesichts des beobachteten Ergebnisses zu berechnen?"
Möglicherweise würde es. Siehe die gesamte Diskussion von Bayes oben.
"[...] Nun berechnen wir den p-Wert, der der Wahrscheinlichkeit entspricht, 14 oder mehr Köpfe in 20 Münzwürfen zu erhalten. OK, jetzt haben wir diese Wahrscheinlichkeit (0,058) und wollen diese Wahrscheinlichkeit dazu nutzen Beurteilen Sie unser Modell (wie wahrscheinlich ist es, dass wir eine faire Münze haben). "
"von unserer Hypothese ausgehen, dass unser Modell wahr ist", aber im Wesentlichen: ja. Große p-Werte zeigen an, dass das Verhalten der Münze mit der Hypothese übereinstimmt, dass es fair ist. (Sie stimmen auch in der Regel mit der Annahme überein, dass die Hypothese falsch ist, dass sie jedoch so nah an der Wahrheit liegt, dass wir nicht genügend Daten haben, um sie zu ermitteln; siehe „statistische Aussagekraft“.)
"Aber wenn wir die Wahrscheinlichkeit des Modells schätzen wollen, warum berechnen wir die Wahrscheinlichkeit des Modells bei gegebenem Experiment nicht? Warum berechnen wir die Wahrscheinlichkeit des Experiments bei gegebenem Modell (p-Wert)?"
Wir berechnen die Wahrscheinlichkeit der experimentellen Ergebnisse bei der Hypothese in diesem Aufbau nicht. Schließlich ist die Wahrscheinlichkeit nur etwa 0.176 zu sehen genau 10 Köpfe , wenn die Hypothese wahr ist, und das ist der am meisten wahrscheinliche Wert. Dies ist überhaupt keine Menge von Interesse.
Es ist auch relevant, dass wir die Wahrscheinlichkeit des Modells normalerweise auch nicht schätzen. Sowohl frequentistische als auch bayesianische Antworten gehen normalerweise davon aus, dass das Modell wahr ist, und lassen Rückschlüsse auf seine Parameter zu. Tatsächlich wären nicht alle Bayesianer grundsätzlich an der Wahrscheinlichkeit des Modells interessiert, dh der Wahrscheinlichkeit, dass die gesamte Situation durch eine Binomialverteilung gut modelliert wurde. Sie führen möglicherweise viele Modellprüfungen durch, fragen jedoch nie, wie wahrscheinlich das Binomial im Bereich anderer möglicher Modelle war. Bayesianer, die sich für Bayes-Faktoren interessieren, sind interessiert, andere weniger.
quelle
Eine Randnotiz zu den anderen ausgezeichneten Antworten: Gelegentlich gibt es Zeiten, in denen wir dies nicht tun. Zum Beispiel waren sie bis vor kurzem in der Zeitschrift Epidemiology völlig verboten - jetzt sind sie nur noch "stark entmutigt", und die Redaktion widmete einer Diskussion über sie hier enorm viel Raum: http: //journals.lww. de / epidem / pages / collectiondetails.aspx? TopicalCollectionId = 4
quelle
quelle
Wahrscheinlichkeit definieren . Ich meine es so. Bevor wir weiterkommen, müssen wir uns auf Bedingungen einigen.
In der Praxis können Probleme mit bestimmten Erkrankungen und ihrer Funktionsweise dazu führen, dass Sie keine dieser Komponenten der Gelenkverteilung finden und diese nicht konditionieren können.
Abgesehen von den Schwierigkeiten, über die richtigen Modelle zu sprechen, haben Bayes'sche Methoden nur begrenzte Möglichkeiten, mit Modellfehlspezifikationen umzugehen. Wenn Sie keine Gaußschen Fehler mögen oder nicht an die Unabhängigkeit von Münzwürfen glauben (Ihre Hand wird nach den ersten 10.000 oder so müde, also werfen Sie sie nicht so hoch wie die ersten 1.000 oder so oft), was die Wahrscheinlichkeiten beeinflussen kann), ist alles, was Sie in der Bayesianischen Welt tun können, ein komplizierteres Modell zu bauen - Stick Breaking Priors für normale Gemische, Splines in Wahrscheinlichkeiten im Laufe der Zeit, was auch immer. Es gibt jedoch keine direkte Analogie zu Huber-Sandwich-Standardfehlern, die explizit anerkennen, dass das Modell möglicherweise falsch spezifiziert ist, und bereit sind, dies zu berücksichtigen.
quelle
Weil wir nicht wissen wie. Es sind unendlich viele Modelle möglich und ihr Wahrscheinlichkeitsraum ist nicht definiert.
Hier ist ein praktisches Beispiel. Angenommen, ich möchte das US-BIP prognostizieren. Ich bekomme die Zeitreihe und passe ein Modell an. Wie groß ist die Wahrscheinlichkeit, dass dieses Modell zutrifft?
quelle