P-Wert verstehen

33

Ich weiß, dass es viele Materialien gibt, die den p-Wert erklären. Das Konzept ist jedoch ohne weitere Klarstellung nicht leicht festzuhalten.

Hier ist die Definition von p-Wert aus Wikipedia:

Der p-Wert ist die Wahrscheinlichkeit, eine Teststatistik zu erhalten, die mindestens so extrem ist wie die tatsächlich beobachtete, unter der Annahme, dass die Nullhypothese wahr ist. ( http://en.wikipedia.org/wiki/P-value )

Meine erste Frage betrifft den Ausdruck "mindestens so extrem wie die tatsächlich beobachtete". Mein Verständnis der Logik, die der Verwendung des p-Werts zugrunde liegt, ist wie folgt: Wenn der p-Wert klein ist, ist es unwahrscheinlich, dass die Beobachtung unter der Annahme der Nullhypothese erfolgte, und wir benötigen möglicherweise eine alternative Hypothese, um die Beobachtung zu erklären. Wenn der p-Wert nicht so klein ist, ist es wahrscheinlich, dass die Beobachtung nur unter der Annahme der Nullhypothese erfolgte und die Alternativhypothese zur Erklärung der Beobachtung nicht erforderlich ist. Wenn jemand also auf einer Hypothese bestehen will, muss er / sie zeigen, dass der p-Wert der Nullhypothese sehr klein ist. Unter diesem Gesichtspunkt verstehe ich den mehrdeutigen Ausdruck so, dass der p-Wertmin[P(X<x),P(x<X)], wenn das PDF der Statistik unimodal ist, wobei die Teststatistik und der Wert ist, der sich aus der Beobachtung ergibt. Ist das richtig? Wenn es richtig ist, kann das bimodale PDF der Statistik trotzdem verwendet werden? Wenn zwei Peaks der PDF gut getrennt sind und der beobachtete Wert irgendwo im Bereich niedriger Wahrscheinlichkeitsdichte zwischen den beiden Peaks liegt, welches Intervall gibt der p-Wert die Wahrscheinlichkeit von?Xx

Die zweite Frage betrifft eine andere Definition des p-Werts von Wolfram MathWorld:

Die Wahrscheinlichkeit, dass eine Variable zufällig einen Wert annimmt, der größer oder gleich dem beobachteten Wert ist. ( http://mathworld.wolfram.com/P-Value.html )

Ich habe verstanden, dass der Ausdruck "rein zufällig" als "Annahme einer Nullhypothese" interpretiert werden sollte. Ist das richtig?

Die dritte Frage betrifft die Verwendung der "Nullhypothese". Nehmen wir an, jemand möchte darauf bestehen, dass eine Münze fair ist. Er drückt die Hypothese aus, dass die relative Häufigkeit der Köpfe 0,5 beträgt. Dann lautet die Nullhypothese "relative Häufigkeit der Köpfe nicht 0,5". In diesem Fall ist die Berechnung des p-Werts der Nullhypothese schwierig, während die Berechnung für die alternative Hypothese einfach ist. Natürlich kann das Problem gelöst werden, indem die Rolle der beiden Hypothesen vertauscht wird. Meine Frage ist, ob eine Ablehnung oder Annahme, die direkt auf dem p-Wert der ursprünglichen alternativen Hypothese basiert (ohne die Nullhypothese einzuführen), in Ordnung ist oder nicht. Wenn es nicht in Ordnung ist, was ist die übliche Problemumgehung für solche Schwierigkeiten bei der Berechnung des p-Werts einer Nullhypothese?




Ich habe eine neue Frage gestellt , die anhand der Diskussion in diesem Thread klarer wird.


JDL
quelle
14
Sie haben eine Subtilität entdeckt, die oft unerkannt bleibt: "Extremer" muss anhand der relativen Wahrscheinlichkeit der Alternativhypothese gemessen werden und nicht anhand des offensichtlichen (aber nicht allgemein zutreffenden) Gefühls, weiter hinten in der Null-Stichprobe zu sein Verteilung. Dies wird in der Formulierung des Neyman-Pearson-Lemmas explizit erwähnt , das verwendet wird, um viele Hypothesentests zu rechtfertigen und ihre kritischen Bereiche (und deren p-Werte) zu bestimmen. Wenn Sie dies durchdenken, können Sie Ihre erste Frage beantworten.
whuber
1
Wie ich mich erinnere, ist das Neyman-Pearson-Lemma optimal für einfache vs. einfache Hypothesentests (Ho: mu = mu_0, Ha: mu = mu_a). Für zusammengesetzte Tests (Ho: mu = mu_0, Ha: mu> mu_a) gibt es einen alternativen Test.
RobertF

Antworten:

17

Erste Antwort

Sie müssen beim Begriff des Extremen an die Wahrscheinlichkeit der Teststatistik denken, nicht an ihren Wert oder den Wert der zu testenden Zufallsvariablen. Ich berichte das folgende Beispiel von Christensen, R. (2005). Testen von Fisher, Neyman, Pearson und Bayes . The American Statistician , 59 (2), 121–126

(r|θ=0r|1234p(r|θ=0)|0,9800,0050,0050,010pveinlue|1,00,010,010,02

Hier sind die Beobachtungen, die zweite Zeile ist die Wahrscheinlichkeit, eine gegebene Beobachtung unter der Nullhypothese , die hier als Teststatistik verwendet wird, die dritte Zeile ist der Wert. Wir sind hier im Rahmen eines Fischertests: Es gibt eine Hypothese ( , in diesem Fall ), unter der wir sehen wollen, ob die Daten seltsam sind oder nicht. Die Beobachtungen mit der geringsten Wahrscheinlichkeit sind 2 und 3 mit jeweils 0,5%. Wenn Sie zum Beispiel 2 erhalten, beträgt die Wahrscheinlichkeit, etwas als wahrscheinlich oder weniger wahrscheinlich zu beobachten ( und ), 1%. Die Beobachtung trägt nicht zumθ = 0 p H 0 θ = 0 r = 2 r = 3rθ=0pH0θ=0r=2r=3pr=4p Wert, obwohl er weiter entfernt ist (wenn eine Ordnungsbeziehung besteht), weil er mit höherer Wahrscheinlichkeit beobachtet werden kann.

Diese Definition funktioniert im Allgemeinen, da sie sowohl kategoriale als auch mehrdimensionale Variablen berücksichtigt, für die keine Ordnungsbeziehung definiert ist. Im Fall einer einzelnen quantitativen Variablen, bei der Sie eine Abweichung vom wahrscheinlichsten Ergebnis beobachten, ist es möglicherweise sinnvoll, den einzelnen Wert zu berechnen und nur die Beobachtungen zu berücksichtigen, die sich auf einer Seite der Verteilung der Teststatistiken befinden.p

Zweite Antwort

Ich stimme dieser Definition von Mathworld überhaupt nicht zu.

Dritte Antwort

Ich muss sagen, dass ich nicht ganz sicher bin, ob ich Ihre Frage verstanden habe, aber ich werde versuchen, einige Beobachtungen zu machen, die Ihnen helfen könnten.

Im einfachsten Kontext der Fischertests, in denen Sie nur die Nullhypothese haben, sollte dies der Status Quo sein . Dies liegt daran, dass Fischertests im Wesentlichen im Widerspruch funktionieren. Wenn Sie also keine Gründe haben, anders zu denken, würden Sie annehmen, dass es fair ist, . Dann berechnen Sie den Wert für Ihre Daten unter und lehnen die Hypothese ab , wenn Ihr Wert unter einem vordefinierten Schwellenwert liegt (Beweis durch Widerspruch). Sie berechnen niemals die Wahrscheinlichkeit der Nullhypothese.pH0:θ=0,5p pH0p

Bei den Neyman-Pearson-Tests geben Sie zwei alternative Hypothesen an und bevorzugen auf der Grundlage ihrer relativen Wahrscheinlichkeit und der Dimensionalität der Parametervektoren die eine oder andere. Dies zeigt sich zum Beispiel beim Testen der Hypothese von voreingenommenen gegenüber unverfälschten Münzen. Nicht vorgespannt bedeutet, dass der Parameter auf (die Dimension dieses Parameterraums ist Null), während vorgespannt ein beliebiger Wert (Dimension gleich Eins) sein kann. Dies löst das Problem des Versuchs, der Hypothese der Voreingenommenheit durch Widerspruch zu widersprechen, was, wie von einem anderen Benutzer erklärt, unmöglich wäre. Fisher und NP liefern ähnliche Ergebnisse, wenn die Stichprobe groß ist, sie sind jedoch nicht genau gleichwertig. Hier unten ein einfacher Code in R für eine voreingenommene Münze.θ 0,5θ=0,5θ0,5

n <- 100  # trials
p_bias <- 0.45  # the coin is biased
k <- as.integer(p_bias * n)  # successes

# value obtained by plugging in the MLE of p, i.e. k/n = p_bias
lambda <- 2 * n * log(2) + 2 * k * log(p_bias) + 2 * (n-k) * log(1. - p_bias)

p_value_F <- 2 * pbinom(k, size=n, prob=0.5)  # p-value under Fisher test
p_value_NP <- 1 - pchisq(q=lambda, df=1)  # p-value under Neyman-Pearson
binom.test(c(k, n-k))  # equivalent to Fisher
Zag
quelle
2
+1 für den Hinweis auf einen großartigen Artikel, von dem ich nichts wusste. (Auch für einige dringend benötigte Skepsis über den Nutzen von Mathworlds Sicht der Statistik).
Conjugateprior
Vielen Dank! Der p-Wert ist also \ int_ {x: f (x) <= k} f, wobei f das PDF einer Teststatistik und k der beobachtete Wert der Statistik ist. Danke nochmal.
JDL
In Bezug auf die dritte Antwort wird in Ihrer Antwort die Ungerechtigkeit der Münze bewiesen, da die Annahme der Fairness abgelehnt wird. Im Gegenteil, um die Gerechtigkeit der Münze durch Widerspruch zu beweisen, muss ich eine Ungerechtigkeit von 0,5 annehmen und den p-Wert meiner Daten berechnen. Wie kann ich es tun? Mein Punkt ist die Schwierigkeit, die sich aus dem \ nAnzeichen der Ungerechtigkeitsannahme ergibt. Muss ich ein Toleranzniveau für die Fairness einführen, beispielsweise 0,4 <θ <0,6, und den p-Wert in Form von θ berechnen und über 0 <θ <0,4 und 0,6 <θ <1 integrieren?
JDL
Noch eine Frage. Dieser Link erklärt den "einseitigen" p-Wert. Einseitiger p-Wert beantwortet Fragen wie "Nullhypothese, dass zwei Populationen wirklich gleich sind ... Wie groß ist die Wahrscheinlichkeit, dass zufällig ausgewählte Stichproben Mittel haben, die so weit voneinander entfernt sind (oder darüber hinaus gehen), wie in diesem Experiment mit die angegebene Gruppe hat den größeren Mittelwert? " Ist es eine angemessene Verwendung des einseitigen p-Werts? Ich denke, die Nullhypothese selbst sollte in diesem Fall als Ungleichung ausgedrückt werden (anstelle von Gleichheit und einseitiger Prüfung).
JDL
1
@Zag, ich stimme nicht eher mit dieser Antwort: Sie müssen nicht haben , um in Bezug auf die Wahrscheinlichkeit , dass der Begriff der extremen zu denken. Besser gesagt, in diesem Beispiel wird die Wahrscheinlichkeit unter der Null als Teststatistik verwendet - aber das ist nicht zwingend erforderlich. Wenn beispielsweise das von whuber erwähnte Wahrscheinlichkeitsverhältnis als Teststatistik verwendet wird, werden mögliche Stichproben im Allgemeinen nicht in der gleichen Reihenfolge wie die Wahrscheinlichkeit unter der Null gesetzt. Andere Statistiken werden für die maximale Leistung für eine bestimmte Alternative oder für alle Alternativen oder für die hohe Leistung für eine vage definierte Menge ausgewählt.
Scortchi
8

(1) Eine Statistik ist eine Zahl, die Sie aus einer Stichprobe berechnen können. Es wird verwendet, um alle Proben, die Sie möglicherweise haben, zu ordnen (unter einem angenommenen Modell, bei dem Münzen nicht an ihren Rändern landen und was Sie haben). Wenn ist, was Sie aus der tatsächlich erhaltenen Stichprobe berechnen, & die entsprechende Zufallsvariable ist, dann wird der p-Wert durch unter der Nullhypothese, . "Größer als" gegen "extremer" ist im Prinzip unwichtig. Für einen zweiseitigen Test mit einem normalen Mittelwert könnten wir aber es ist zweckmäßig, weil wir die entsprechenden Tabellen haben. (Beachten Sie die Verdoppelung.)TtTPr(Tt)H0Pr(|Z||z|)2Mindest[Pr(Zz),Pr(Zz)]

Es ist nicht erforderlich, dass die Teststatistik die Stichproben in der Reihenfolge ihrer Wahrscheinlichkeit unter die Nullhypothese setzt. Es gibt Situationen (wie Zag des Beispiel) , wo jede andere Art und Weise pervers erscheinen würde (ohne weitere Informationen über das, was Maßnahmen, welche Arten von Diskrepanzen mit sind von besonderem Interesse, usw.), Aber oft andere Kriterien verwendet werden. Sie könnten also ein bimodales PDF für die Teststatistik haben und trotzdem mit der obigen Formel testen .rH0H0

(2) Ja, sie bedeuten unter .H0

(3) Eine Nullhypothese wie "Die Frequenz der Köpfe ist nicht 0,5" hat keinen Sinn, weil Sie sie niemals ablehnen könnten. Es ist eine zusammengesetzte Null, einschließlich "die Frequenz der Köpfe ist 0,49999999" oder so nah wie Sie möchten. Ob Sie die Messe der Münze im Voraus denken oder nicht, Sie wählen eine nützliche Nullhypothese, die das Problem betrifft. Vielleicht ist es nach dem Experiment sinnvoller, ein Konfidenzintervall für die Häufigkeit der Köpfe zu berechnen, das anzeigt, dass es sich eindeutig nicht um eine faire Münze handelt oder dass es nahe genug ist, um fair zu sein, oder dass Sie weitere Versuche durchführen müssen, um dies herauszufinden.

Ein Beispiel für (1):

Angenommen, Sie testen die Fairness einer Münze mit 10 Würfen. Es gibt mögliche Ergebnisse. Hier sind drei davon:210

HHHHHHHHHHHTHTHTHTHTHHTHHHTTTH

Sie werden mir wahrscheinlich zustimmen, dass die ersten beiden etwas verdächtig aussehen. Die Wahrscheinlichkeiten unter der Null sind jedoch gleich:

Pr(HHHHHHHHHH)=11024Pr(HTHTHTHTHT)=11024Pr(HHTHHHTTTH)=11024

Um irgendwohin zu gelangen, müssen Sie überlegen, welche Arten von Alternativen zu den Nullwerten Sie testen möchten. Wenn Sie bereit sind, die Unabhängigkeit jedes Wurfs sowohl bei Null als auch bei Alternative anzunehmen (in realen Situationen bedeutet dies oft, dass Sie sehr hart arbeiten, um sicherzustellen, dass die experimentellen Versuche unabhängig sind), können Sie die Gesamtanzahl der Köpfe als Teststatistik verwenden, ohne Informationen zu verlieren . (Die Partitionierung des Sample-Space auf diese Weise ist eine weitere wichtige Aufgabe der Statistik.)

Sie haben also eine Zählung zwischen 0 und 10

t<-c(0:10)

Seine Verteilung unter der Null ist

p.null<-dbinom(t,10,0.5)

Unter der Version der Alternative, die am besten zu den Daten passt, ist die Wahrscheinlichkeit für Köpfe , wenn Sie 3 von 10 Köpfen sehen (sagen wir)310

p.alt<-dbinom(t,10,t/10)

Nehmen Sie das Verhältnis der Wahrscheinlichkeit unter der Null zur Wahrscheinlichkeit unter der Alternative (Likelihood-Verhältnis genannt):

lr<-p.alt/p.null

Vergleichen mit

plot(log(lr),p.null)

Für diese Null werden also die beiden Statistikreihenfolgen auf die gleiche Weise abgetastet. Wenn Sie mit einer Null von 0,85 wiederholen (dh testen, dass die Langzeithäufigkeit der Köpfe 85% beträgt), tun sie dies nicht.

p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)

lrt gof test

Um zu sehen warum

plot(t,p.alt)

Einige Werte von sind bei der Alternative weniger wahrscheinlich, und die Likelihood-Ratio-Teststatistik berücksichtigt dies. NB diese Teststatistik ist nicht extrem fürt

HTHTHTHTHT

Und das ist in Ordnung - jede Stichprobe kann aus irgendeiner Sicht als extrem angesehen werden. Sie wählen die Teststatistik entsprechend der Abweichung von der Null aus, die Sie erkennen möchten.

... Wenn Sie diesen Gedankengang fortsetzen, können Sie eine Statistik definieren, die den Probenraum unterschiedlich aufteilt, um dieselbe Null gegen die Alternative zu testen, die ein Münzwurf für den nächsten hat. Nennen Sie die Anzahl der Läufe , damitr

HHTHHHTTTH

hat :r=6

HH T HHH TTT H

Die verdächtige Sequenz

HTHTHTHTHT

hat . So auchr=10

THTHTHTHTH

während am anderen extrem

HHHHHHHHHHTTTTTTTTTT

habe . Wenn Sie die Wahrscheinlichkeit unter Null als Teststatistik verwenden (wie Sie möchten), können Sie sagen, dass dies der p-Wert der Stichprobe istr=1

HTHTHTHTHT

lautet daher . Wenn Sie diesen Test mit dem vorherigen vergleichen, ist zu beachten, dass die Art und Weise, in der Sie Ihre Teststatistik definieren, um den Probenraum zu partitionieren, von der Berücksichtigung von Alternativen abhängt, auch wenn Sie sich strikt an die Reihenfolge halten, die durch die Wahrscheinlichkeit unter der Null angegeben ist.41024=1256

Scortchi - Wiedereinsetzung von Monica
quelle
Sie sagen, dass die Definition Pr (T \ ge t; H_0) auf jedes multimodale (natürlich auch bimodale) PDF einer Teststatistik anwendbar sein kann. Anschließend geben Sie und Zag unterschiedliche p-Werte für multimodale PDF-Dateien einer Teststatistik an. Meiner Meinung nach ist die Definition von Zag vernünftiger, da die Rolle des p-Werts darin besteht, zu quantifizieren, wie wahrscheinlich (oder seltsam) die Beobachtung unter der Nullhypothese ist, wie er betonte. Was ist Ihre Begründung für die Definition Pr (T \ ge t; H_0)?
JDL
@JDL, das ist nur die Definition eines p-Wertes. Die Frage ist dann, wie man eine "gute" Teststatistik findet (und wie man "gut" definiert). Manchmal wird die Wahrscheinlichkeit unter der Null (oder eine Funktion der Daten, die dieselbe Reihenfolge ergibt) als Teststatistik verwendet. Manchmal gibt es gute Gründe, sich für andere zu entscheiden, die in Büchern über theoretische Statistiken viel Platz einnehmen. Ich denke es ist fair zu sagen, dass sie explizite oder implizite Überlegungen zu Alternativen beinhalten. ...
Scortchi - Wiedereinsetzung von Monica
@JDL, ... Und wenn eine bestimmte Beobachtung sowohl unter Null als auch unter Alternative eine geringe Wahrscheinlichkeit aufweist , erscheint es vernünftig, sie nicht als extrem anzusehen .
Scortchi
Vielen Dank für Ihre Antworten, @Scortchi. Ich habe eine neue Frage gestellt und Ihre Kommentare gleich nach der Veröffentlichung gesehen. Jedenfalls ist mir die Definition noch nicht klar. Nochmals vielen Dank für Ihre freundlichen Antworten.
JDL
Ich habe eine Illustration hinzugefügt
Scortchi