Ich weiß, dass es viele Materialien gibt, die den p-Wert erklären. Das Konzept ist jedoch ohne weitere Klarstellung nicht leicht festzuhalten.
Hier ist die Definition von p-Wert aus Wikipedia:
Der p-Wert ist die Wahrscheinlichkeit, eine Teststatistik zu erhalten, die mindestens so extrem ist wie die tatsächlich beobachtete, unter der Annahme, dass die Nullhypothese wahr ist. ( http://en.wikipedia.org/wiki/P-value )
Meine erste Frage betrifft den Ausdruck "mindestens so extrem wie die tatsächlich beobachtete". Mein Verständnis der Logik, die der Verwendung des p-Werts zugrunde liegt, ist wie folgt: Wenn der p-Wert klein ist, ist es unwahrscheinlich, dass die Beobachtung unter der Annahme der Nullhypothese erfolgte, und wir benötigen möglicherweise eine alternative Hypothese, um die Beobachtung zu erklären. Wenn der p-Wert nicht so klein ist, ist es wahrscheinlich, dass die Beobachtung nur unter der Annahme der Nullhypothese erfolgte und die Alternativhypothese zur Erklärung der Beobachtung nicht erforderlich ist. Wenn jemand also auf einer Hypothese bestehen will, muss er / sie zeigen, dass der p-Wert der Nullhypothese sehr klein ist. Unter diesem Gesichtspunkt verstehe ich den mehrdeutigen Ausdruck so, dass der p-Wert, wenn das PDF der Statistik unimodal ist, wobei die Teststatistik und der Wert ist, der sich aus der Beobachtung ergibt. Ist das richtig? Wenn es richtig ist, kann das bimodale PDF der Statistik trotzdem verwendet werden? Wenn zwei Peaks der PDF gut getrennt sind und der beobachtete Wert irgendwo im Bereich niedriger Wahrscheinlichkeitsdichte zwischen den beiden Peaks liegt, welches Intervall gibt der p-Wert die Wahrscheinlichkeit von?
Die zweite Frage betrifft eine andere Definition des p-Werts von Wolfram MathWorld:
Die Wahrscheinlichkeit, dass eine Variable zufällig einen Wert annimmt, der größer oder gleich dem beobachteten Wert ist. ( http://mathworld.wolfram.com/P-Value.html )
Ich habe verstanden, dass der Ausdruck "rein zufällig" als "Annahme einer Nullhypothese" interpretiert werden sollte. Ist das richtig?
Die dritte Frage betrifft die Verwendung der "Nullhypothese". Nehmen wir an, jemand möchte darauf bestehen, dass eine Münze fair ist. Er drückt die Hypothese aus, dass die relative Häufigkeit der Köpfe 0,5 beträgt. Dann lautet die Nullhypothese "relative Häufigkeit der Köpfe nicht 0,5". In diesem Fall ist die Berechnung des p-Werts der Nullhypothese schwierig, während die Berechnung für die alternative Hypothese einfach ist. Natürlich kann das Problem gelöst werden, indem die Rolle der beiden Hypothesen vertauscht wird. Meine Frage ist, ob eine Ablehnung oder Annahme, die direkt auf dem p-Wert der ursprünglichen alternativen Hypothese basiert (ohne die Nullhypothese einzuführen), in Ordnung ist oder nicht. Wenn es nicht in Ordnung ist, was ist die übliche Problemumgehung für solche Schwierigkeiten bei der Berechnung des p-Werts einer Nullhypothese?
Ich habe eine neue Frage gestellt , die anhand der Diskussion in diesem Thread klarer wird.
Antworten:
Erste Antwort
Sie müssen beim Begriff des Extremen an die Wahrscheinlichkeit der Teststatistik denken, nicht an ihren Wert oder den Wert der zu testenden Zufallsvariablen. Ich berichte das folgende Beispiel von Christensen, R. (2005). Testen von Fisher, Neyman, Pearson und Bayes . The American Statistician , 59 (2), 121–126
Hier sind die Beobachtungen, die zweite Zeile ist die Wahrscheinlichkeit, eine gegebene Beobachtung unter der Nullhypothese , die hier als Teststatistik verwendet wird, die dritte Zeile ist der Wert. Wir sind hier im Rahmen eines Fischertests: Es gibt eine Hypothese ( , in diesem Fall ), unter der wir sehen wollen, ob die Daten seltsam sind oder nicht. Die Beobachtungen mit der geringsten Wahrscheinlichkeit sind 2 und 3 mit jeweils 0,5%. Wenn Sie zum Beispiel 2 erhalten, beträgt die Wahrscheinlichkeit, etwas als wahrscheinlich oder weniger wahrscheinlich zu beobachten ( und ), 1%. Die Beobachtung trägt nicht zumθ = 0 p H 0 θ = 0 r = 2 r = 3r θ = 0 p H0 θ = 0 r = 2 r = 3 pr = 4 p Wert, obwohl er weiter entfernt ist (wenn eine Ordnungsbeziehung besteht), weil er mit höherer Wahrscheinlichkeit beobachtet werden kann.
Diese Definition funktioniert im Allgemeinen, da sie sowohl kategoriale als auch mehrdimensionale Variablen berücksichtigt, für die keine Ordnungsbeziehung definiert ist. Im Fall einer einzelnen quantitativen Variablen, bei der Sie eine Abweichung vom wahrscheinlichsten Ergebnis beobachten, ist es möglicherweise sinnvoll, den einzelnen Wert zu berechnen und nur die Beobachtungen zu berücksichtigen, die sich auf einer Seite der Verteilung der Teststatistiken befinden.p
Zweite Antwort
Ich stimme dieser Definition von Mathworld überhaupt nicht zu.
Dritte Antwort
Ich muss sagen, dass ich nicht ganz sicher bin, ob ich Ihre Frage verstanden habe, aber ich werde versuchen, einige Beobachtungen zu machen, die Ihnen helfen könnten.
Im einfachsten Kontext der Fischertests, in denen Sie nur die Nullhypothese haben, sollte dies der Status Quo sein . Dies liegt daran, dass Fischertests im Wesentlichen im Widerspruch funktionieren. Wenn Sie also keine Gründe haben, anders zu denken, würden Sie annehmen, dass es fair ist, . Dann berechnen Sie den Wert für Ihre Daten unter und lehnen die Hypothese ab , wenn Ihr Wert unter einem vordefinierten Schwellenwert liegt (Beweis durch Widerspruch). Sie berechnen niemals die Wahrscheinlichkeit der Nullhypothese.pH0: Θ = 0,5 p pH0 p
Bei den Neyman-Pearson-Tests geben Sie zwei alternative Hypothesen an und bevorzugen auf der Grundlage ihrer relativen Wahrscheinlichkeit und der Dimensionalität der Parametervektoren die eine oder andere. Dies zeigt sich zum Beispiel beim Testen der Hypothese von voreingenommenen gegenüber unverfälschten Münzen. Nicht vorgespannt bedeutet, dass der Parameter auf (die Dimension dieses Parameterraums ist Null), während vorgespannt ein beliebiger Wert (Dimension gleich Eins) sein kann. Dies löst das Problem des Versuchs, der Hypothese der Voreingenommenheit durch Widerspruch zu widersprechen, was, wie von einem anderen Benutzer erklärt, unmöglich wäre. Fisher und NP liefern ähnliche Ergebnisse, wenn die Stichprobe groß ist, sie sind jedoch nicht genau gleichwertig. Hier unten ein einfacher Code in R für eine voreingenommene Münze.θ ≤ 0,5θ = 0,5 θ ≤ 0,5
quelle
(1) Eine Statistik ist eine Zahl, die Sie aus einer Stichprobe berechnen können. Es wird verwendet, um alle Proben, die Sie möglicherweise haben, zu ordnen (unter einem angenommenen Modell, bei dem Münzen nicht an ihren Rändern landen und was Sie haben). Wenn ist, was Sie aus der tatsächlich erhaltenen Stichprobe berechnen, & die entsprechende Zufallsvariable ist, dann wird der p-Wert durch unter der Nullhypothese, . "Größer als" gegen "extremer" ist im Prinzip unwichtig. Für einen zweiseitigen Test mit einem normalen Mittelwert könnten wir aber es ist zweckmäßig, weil wir die entsprechenden Tabellen haben. (Beachten Sie die Verdoppelung.)Tt T P r ( T≥ t ) H0 P r ( | Z| ≥ | z|) 2 min [ P r ( Z≥ z) , P r (Z≤ z) ]
Es ist nicht erforderlich, dass die Teststatistik die Stichproben in der Reihenfolge ihrer Wahrscheinlichkeit unter die Nullhypothese setzt. Es gibt Situationen (wie Zag des Beispiel) , wo jede andere Art und Weise pervers erscheinen würde (ohne weitere Informationen über das, was Maßnahmen, welche Arten von Diskrepanzen mit sind von besonderem Interesse, usw.), Aber oft andere Kriterien verwendet werden. Sie könnten also ein bimodales PDF für die Teststatistik haben und trotzdem mit der obigen Formel testen .r H0 H0
(2) Ja, sie bedeuten unter .H0
(3) Eine Nullhypothese wie "Die Frequenz der Köpfe ist nicht 0,5" hat keinen Sinn, weil Sie sie niemals ablehnen könnten. Es ist eine zusammengesetzte Null, einschließlich "die Frequenz der Köpfe ist 0,49999999" oder so nah wie Sie möchten. Ob Sie die Messe der Münze im Voraus denken oder nicht, Sie wählen eine nützliche Nullhypothese, die das Problem betrifft. Vielleicht ist es nach dem Experiment sinnvoller, ein Konfidenzintervall für die Häufigkeit der Köpfe zu berechnen, das anzeigt, dass es sich eindeutig nicht um eine faire Münze handelt oder dass es nahe genug ist, um fair zu sein, oder dass Sie weitere Versuche durchführen müssen, um dies herauszufinden.
Ein Beispiel für (1):
Angenommen, Sie testen die Fairness einer Münze mit 10 Würfen. Es gibt mögliche Ergebnisse. Hier sind drei davon:210
Sie werden mir wahrscheinlich zustimmen, dass die ersten beiden etwas verdächtig aussehen. Die Wahrscheinlichkeiten unter der Null sind jedoch gleich:
Um irgendwohin zu gelangen, müssen Sie überlegen, welche Arten von Alternativen zu den Nullwerten Sie testen möchten. Wenn Sie bereit sind, die Unabhängigkeit jedes Wurfs sowohl bei Null als auch bei Alternative anzunehmen (in realen Situationen bedeutet dies oft, dass Sie sehr hart arbeiten, um sicherzustellen, dass die experimentellen Versuche unabhängig sind), können Sie die Gesamtanzahl der Köpfe als Teststatistik verwenden, ohne Informationen zu verlieren . (Die Partitionierung des Sample-Space auf diese Weise ist eine weitere wichtige Aufgabe der Statistik.)
Sie haben also eine Zählung zwischen 0 und 10
Seine Verteilung unter der Null ist
Unter der Version der Alternative, die am besten zu den Daten passt, ist die Wahrscheinlichkeit für Köpfe , wenn Sie 3 von 10 Köpfen sehen (sagen wir)310
Nehmen Sie das Verhältnis der Wahrscheinlichkeit unter der Null zur Wahrscheinlichkeit unter der Alternative (Likelihood-Verhältnis genannt):
Vergleichen mit
Für diese Null werden also die beiden Statistikreihenfolgen auf die gleiche Weise abgetastet. Wenn Sie mit einer Null von 0,85 wiederholen (dh testen, dass die Langzeithäufigkeit der Köpfe 85% beträgt), tun sie dies nicht.
Um zu sehen warum
Einige Werte von sind bei der Alternative weniger wahrscheinlich, und die Likelihood-Ratio-Teststatistik berücksichtigt dies. NB diese Teststatistik ist nicht extrem fürt
Und das ist in Ordnung - jede Stichprobe kann aus irgendeiner Sicht als extrem angesehen werden. Sie wählen die Teststatistik entsprechend der Abweichung von der Null aus, die Sie erkennen möchten.
... Wenn Sie diesen Gedankengang fortsetzen, können Sie eine Statistik definieren, die den Probenraum unterschiedlich aufteilt, um dieselbe Null gegen die Alternative zu testen, die ein Münzwurf für den nächsten hat. Nennen Sie die Anzahl der Läufe , damitr
hat :r = 6
Die verdächtige Sequenz
hat . So auchr = 10
während am anderen extrem
habe . Wenn Sie die Wahrscheinlichkeit unter Null als Teststatistik verwenden (wie Sie möchten), können Sie sagen, dass dies der p-Wert der Stichprobe istr = 1
lautet daher . Wenn Sie diesen Test mit dem vorherigen vergleichen, ist zu beachten, dass die Art und Weise, in der Sie Ihre Teststatistik definieren, um den Probenraum zu partitionieren, von der Berücksichtigung von Alternativen abhängt, auch wenn Sie sich strikt an die Reihenfolge halten, die durch die Wahrscheinlichkeit unter der Null angegeben ist.41024= 1256
quelle