Warum sind p-Werte unter der Nullhypothese gleichmäßig verteilt?

115

Kürzlich habe ich in einer Arbeit von Klammer et al. eine Aussage, dass p-Werte gleichmäßig verteilt sein sollten. Ich glaube den Autoren, kann aber nicht verstehen, warum es so ist.

Klammer, AA, Park, CY und Stafford Noble, W. (2009) Statistische Kalibrierung der SEQUEST XCorr-Funktion . Journal of Proteome Research . 8 (4): 2106–2113.

Golobor
quelle
24
Dies ergibt sich unmittelbar aus der Definition des p-Wertes als Wahrscheinlichkeitsintegraltransformation der Teststatistik unter Verwendung der Verteilung unter der Nullhypothese. Die Schlussfolgerung erfordert, dass die Verteilung kontinuierlich ist. Wenn die Verteilung diskret ist (oder Atome aufweist), ist auch die Verteilung der p-Werte diskret und kann daher nur annähernd gleichmäßig sein.
whuber
1
@whuber gab die Antwort, was ich vermutete. Ich habe die ursprüngliche Referenz angefragt, um sicherzugehen, dass bei der Übersetzung nichts verloren gegangen ist. In der Regel spielt es keine Rolle, ob der Artikel spezifisch ist oder nicht, der statistische Inhalt ist immer
sichtbar
10
Nur wenn wahr istH0 ! ... und genauer gesagt, nur wenn kontinuierlich (obwohl so etwas im nicht kontinuierlichen Fall zutrifft; ich kenne nicht das richtige Wort für den allgemeinsten Fall; es ist keine Einheitlichkeit). Dann folgt aus der Definition von p-Wert.
Glen_b
2
Dies könnte als eine Variante des fundamentalen statistischen Mechanikprinzips angesehen werden (bei dem die Schüler häufig ähnliche Schwierigkeiten haben, zu akzeptieren), dass alle Mikrozustände eines physikalischen Systems mit gleicher Wahrscheinlichkeit vorliegen.
DWin
5
Wie wäre es mit der Behauptung in diesem Artikel: plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0076010 ?

Antworten:

83

Um ein bisschen zu klären. Der p-Wert ist gleichmäßig verteilt, wenn die Nullhypothese wahr ist und alle anderen Annahmen erfüllt sind. Der Grund dafür ist in Wirklichkeit die Definition von Alpha als die Wahrscheinlichkeit eines Fehlers vom Typ I. Wir wollen, dass die Wahrscheinlichkeit, eine echte Nullhypothese abzulehnen, Alpha ist. Wir lehnen ab, wenn der beobachtete ist. Dies geschieht nur, wenn der p-Wert von einer Uniform stammt Verteilung. Der springende Punkt bei der Verwendung der richtigen Verteilung (Normal, t, f, chisq usw.) ist die Transformation von der Teststatistik in einen einheitlichen p-Wert. Wenn die Nullhypothese falsch ist, wird die Verteilung des p-Wertes (hoffentlich) stärker gegen 0 gewichtet.p-value<α

Die Funktionen Pvalue.norm.simund Pvalue.binom.simim TeachingDemos- Paket für R simulieren mehrere Datensätze, berechnen die p-Werte und zeichnen sie auf, um diese Idee zu demonstrieren.

Siehe auch:

Murdoch, D, Tsai, Y und Adcock, J (2008). P-Werte sind Zufallsvariablen. The American Statistician , 62 , 242 & ndash; 245.

Für mehr Details.

Bearbeiten:

Da die Leute diese Antwort immer noch lesen und kommentieren, dachte ich, ich würde @ whubers Kommentar ansprechen.

Es ist richtig, dass bei Verwendung einer zusammengesetzten Nullhypothese wie die p-Werte nur dann gleichmäßig verteilt werden, wenn die 2 Mittelwerte exakt gleich sind und keine Einheitlichkeit aufweisen, wenn ein Wert ist, der kleiner als ist . Dies lässt sich anhand der Funktion und der Einstellung für einen einseitigen Test und die Simulation mit den simulierten und hypothetischen Mitteln leicht erkennen (jedoch in der Richtung, in der die Null wahr wird).μ 1 μ 2μ1μ2μ1μ2Pvalue.norm.sim

Was die statistische Theorie betrifft, spielt dies keine Rolle. Wenn ich behaupte, dass ich größer als jedes Mitglied Ihrer Familie bin, besteht eine Möglichkeit, diese Behauptung zu testen, darin, meine Größe mit der Größe jedes einzelnen Mitglieds Ihrer Familie zu vergleichen. Eine andere Möglichkeit wäre, das größte Familienmitglied zu finden und seine Größe mit meiner zu vergleichen. Wenn ich größer als diese eine Person bin, bin ich auch größer als der Rest und meine Behauptung ist wahr. Wenn ich nicht größer als diese eine Person bin, ist meine Behauptung falsch. Das Testen einer zusammengesetzten Null kann als ein ähnlicher Prozess angesehen werden, anstatt alle möglichen Kombinationen zu testen, bei denen nur der Gleichheitsteil getestet werden kann, da wir zugunsten von ablehnen könnenμ 1 = μ 2 μ 1 > μ 2 μ 1 < μ 2 μ 1 < μ 2 α μ 1 μ 2 αμ1μ2μ1=μ2μ1>μ2dann wissen wir, dass wir auch alle Möglichkeiten von ablehnen können . Wenn wir uns die Verteilung der p-Werte für Fälle ansehen, in denen ist die Verteilung nicht perfekt gleichmäßig, hat jedoch mehr Werte, die näher an 1 als an 0 liegen, was bedeutet, dass die Wahrscheinlichkeit eines Fehlers vom Typ I geringer ist als Der ausgewählte Wert macht es zu einem konservativen Test. Die Uniform wird zur Grenzverteilung, wenn näher anμ1<μ2μ1<μ2αμ1μ2(Die Leute, die aktueller in Bezug auf die statistischen Begriffe sind, könnten dies wahrscheinlich besser in Bezug auf das verteilungsmäßige Supremum oder ähnliches ausdrücken.) Indem wir also unseren Test unter der Annahme des gleichen Teils der Null konstruieren, auch wenn die Null zusammengesetzt ist, entwerfen wir unseren Test so, dass die Wahrscheinlichkeit eines Fehlers vom Typ I bei allen Bedingungen, bei denen die Null wahr ist, höchstens beträgt.α

Greg Snow
quelle
Entschuldigung für den Tippfehler, den ich eingeführt habe (sollte \leqin TeX gelesen werden )!
chl
1
Der Artikel "P-Werte sind Zufallsvariablen" ist wirklich interessant. Gibt es ein Einführungsbuch, das den im Artikel angegebenen Grundsätzen entspricht?
Alessandro Jacopson
8
μ1μ2μ1=μ2106
1
@ Greg Snow: Ich denke, dass die Verteilung der p-Werte nicht immer einheitlich ist, sie ist einheitlich, wenn sie aus einer kontinuierlichen Verteilung berechnet werden, aber nicht, wenn sie aus einer diskreten Verteilung berechnet werden
1
Ich habe die Antwort oben erweitert, um den Kommentar von @whuber zu adressieren.
Greg Snow
26

TF(t)P=F(T)

Pr(P<p)=Pr(F1(P)<F1(p))=Pr(T<t)p;
F ( ) TPF()T

Dieses Ergebnis ist allgemein: Die Verteilung einer invertierbaren CDF einer Zufallsvariablen ist auf gleichmäßig .[0,1]

Charlie
quelle
8
Vielleicht möchten Sie Ihren letzten Kommentar umformulieren, was etwas verwirrend ist. Kontinuierliche CDFs haben nicht unbedingt eine (richtige) Inverse. (Können Sie sich ein Gegenbeispiel vorstellen?) Ihr Beweis erfordert also zusätzliche Bedingungen. Die Standardmethode, um dies zu besteht darin, das Pseudoinverse . Das Argument wird auch subtiler. F(y)=inf{x:F(x)y}
Kardinal
1
Informationen zum Arbeiten mit verallgemeinerten Inversen finden Sie unter link.springer.com/article/10.1007%2Fs00186-013-0436-7 (insbesondere ist F (T) nur einheitlich, wenn F stetig ist - unabhängig davon, ob F invertierbar ist oder nicht nicht). Bezüglich Ihrer Definition eines p-Wertes: Ich denke nicht, dass es immer 'F (T)' ist. Es ist die Wahrscheinlichkeit (unter der Null), einen Wert anzunehmen, der extremer als der beobachtete ist, also könnte es auch die Überlebensfunktion sein (um genau zu sein hier).
Marius Hofert
Ist die CDF? F(t)
Zyxue
@zyxue Ja, die cdf wird manchmal als "Distribution" bezeichnet.
Mikario
6

Sei die Zufallsvariable mit der kumulativen Verteilungsfunktion für alle . Unter der Annahme, dass invertierbar ist, können wir die Verteilung des zufälligen p-Wertes wie folgt ableiten :TF(t)Pr(T<t)tFP=F(T)

Pr(P<p)=Pr(F(T)<p)=Pr(T<F1(p))=F(F1(p))=p,

woraus wir schließen können, dass die Verteilung von auf gleichmäßig ist .P[0,1]

Diese Antwort ähnelt der von Charlie, es wird jedoch vermieden, .t=F1(p)

jII
quelle
Wie Sie F definiert haben, ist P = F (T) = Pr (T <T) = 0?
TrynnaDoStat
Nicht genau, der "syntaktische Ersatz" von ist etwas irreführend. Formal ist die Zufallsvariable, die durchF(T)=Pr(T<T)F(T)(F(T))(ω)=F(T(ω)):=Pr(T<T(ω))
jII
4

Einfache Simulation der Verteilung von p-Werten bei linearer Regression zwischen zwei unabhängigen Variablen:

# estimated model is: y = a0 + a1*x + e

obs<-100                # obs in each single regression
Nloops<-1000            # number of experiments
output<-numeric(Nloops) # vector holding p-values of estimated a1 parameter from Nloops experiments

for(i in seq_along(output)){

x<-rnorm(obs) 
y<-rnorm(obs)

# x and y are independent, so null hypothesis is true
output[i] <-(summary(lm(y~x)) $ coefficients)[2,4] # we grab p-value of a1

if(i%%100==0){cat(i,"from",Nloops,date(),"\n")} # after each 100 iteration info is printed

}

plot(hist(output), main="Histogram of a1 p-values")
ks.test(output,"punif") # Null hypothesis is that output distr. is uniform
Qbik
quelle
7
Könnten Sie näher erläutern, wie dies die Frage beantwortet? Obwohl seine Ausgabe stellt einen Sonderfall der Behauptung, würde kein Betrag der Code der Behandlung der Frage der Lage sein , warum ? Das bedarf einer zusätzlichen Erklärung.
whuber
-1

Ich glaube nicht, dass die meisten dieser Antworten die Frage allgemein beantworten. Sie beschränken sich auf den Fall, dass eine einfache Nullhypothese vorliegt und die Teststatistik eine invertierbare CDF aufweist (wie bei einer stetigen Zufallsvariablen mit einer streng ansteigenden CDF). Dies sind die Fälle, um die sich die meisten Menschen beim Z-Test und T-Test kümmern, obwohl man zum Testen eines binomischen Mittels (zum Beispiel) keine solche CDF hat. Was oben angegeben ist, erscheint mir für diese eingeschränkten Fälle richtig.

Wenn Nullhypothesen zusammengesetzt sind, sind die Dinge etwas komplizierter. Der allgemeinste Beweis für diese Tatsache, den ich unter Verwendung einiger Annahmen in Bezug auf Ablehnungsbereiche im zusammengesetzten Fall gesehen habe, ist in Lehmann und Romanos "Testing Statisitical Hypotheses", S. 63-64, zu finden. Ich werde versuchen, das folgende Argument wiederzugeben ...

Wir testen eine Nullhypothese gegen eine alternative Hypothese auf der Grundlage einer Teststatistik, die wir als Zufallsvariable . Es wird angenommen, dass die Teststatistik aus einer parametrischen Klasse stammt, dh , wobei ein Element der Familie der Wahrscheinlichkeitsverteilungen und ist ein Parameterraum. Die Nullhypothese und die Alternativhypothese bilden eine Partition von in diesem H0H1XXPθPθP{PθθΘ}ΘH0:θΘ0H1:θΘ1Θ

Θ=Θ0Θ1
Dabei ist
Θ0Θ1=.

Das Ergebnis der Prüfung kann bezeichnet werden , wo für jede Menge definieren wir Hier ist unser Signifikanzniveau, und bezeichnet den Ablehnungsbereich des Tests für das Signifikanzniveau .

ϕα(X)=1Rα(X)
S
1S(X)={1,XS,0,XS.
αRαα

Angenommen, die Zurückweisungsbereiche erfüllen die wenn . In diesem Fall von verschachtelten Zurückweisungsbereichen ist es nützlich, nicht nur zu bestimmen, ob die Nullhypothese bei einem gegebenen Signifikanzniveau wird oder nicht , sondern auch das kleinste Signifikanzniveau zu bestimmen, für das die Nullhypothese zurückgewiesen würde. Diese Stufe wird als p-Wert bezeichnet , Diese Zahl gibt uns eine Vorstellung von wie stark die Daten (wie in der Teststatistik ) der Nullhypothese widersprechen .

RαRα
α<αα
p^=p^(X)inf{αXRα},
XH0

Angenommen, für etwas und . Es sei zusätzlich angenommen, dass die Zurückweisungsbereiche der oben angegebenen Verschachtelungseigenschaft gehorchen. Dann gilt folgendes:XPθθΘH0:θΘ0Rα

  1. Wenn für alle , dann für , supθΘ0Pθ(XRα)α0<α<1θΘ0

    Pθ(p^u)ufor all0u1.

  2. Wenn für wir haben für alle , dann haben wir θΘ0Pθ(XRα)=α0<α<1θΘ0

    Pθ(p^u)=ufor all0u1.

Beachten Sie, dass diese erste Eigenschaft nur angibt, dass die falsch-positive Rate bei durch Zurückweisen gesteuert wird, wenn der p-Wert kleiner als , und die zweite Eigenschaft (unter der zusätzlichen Annahme) angibt, dass p-Werte unter der Null gleichmäßig verteilt sind Hypothese.uu

Der Beweis ist wie folgt:

  1. Lassen Sie und nehmen Sie für alle . Dann haben wir per Definition von für alle . Aus der Monotonie und der Annahme folgt, dass für alle . Wenn wir , folgt, dass .θΘ0supθΘ0Pθ(XRα)α0<α<1p^{p^u}{XRv}u<vPθ(p^u)Pθ(XRv)vu<vvuPθ(p^u)u

  2. Lassen Sie und nehmen Sie an, dass für alle . Dann , und aus der Monotonie folgt, dass . Unter Berücksichtigung von (1) folgt, dass . θΘ0Pθ(XRα)=α0<α<1{XRu}{p^(X)u}u=Pθ(XRu)Pθ(p^u)Pθ(p^(X)u)=u

Es ist zu beachten, dass die Annahme in (2) nicht zutrifft, wenn eine Teststatistik diskret ist, selbst wenn die Nullhypothese eher einfach als zusammengesetzt ist. Nehmen wir zum Beispiel mit und . Das heißt, wirf eine Münze zehnmal um und teste, ob sie fair oder voreingenommen gegenüber Köpfen ist (als 1 codiert). Die Wahrscheinlichkeit, 10 Köpfe in 10 fairen Münzwürfen zu sehen, beträgt (1/2) ^ 10 = 1/1024. Die Wahrscheinlichkeit, 9 oder 10 Köpfe in 10 fairen Münzwürfen zu sehen, beträgt 11/1024. Für jedes ausschließlich zwischen 1/1024 und 11/1024 liegt, lehnen Sie die Null ab, wenn ist. Wir haben jedoch nicht das für diese Werte von wennXBinom(10,θ)H0:θ=.5H1:θ>0.5αX=10Pr(XRα)=ααθ=0.5 . Stattdessen ist für ein solches . Pr(XRα)=1/1024α

Adam
quelle
Sollte klarstellen, dass die in Lehmann und Romano vorgesehene Allgemeinheit für allgemeine Ablehnungsregionen gilt. Dennoch haben Sie nur "gültige" p-Werte für zusammengesetzte Nullen und nicht kontinuierliche Teststatistiken.
Adam
-12

Wenn p-Werte unter dem H0 gleichmäßig verteilt sind, bedeutet dies, dass ein p-Wert von .05 ebenso wahrscheinlich ist wie ein p-Wert von .80, dies ist jedoch nicht der Fall, da es weniger wahrscheinlich ist, dass ein p-Wert beobachtet wird. Wert von .05 als ein p-Wert von .80, da dies genau die Definition der Normalverteilung ist, aus der der p-Wert entnommen wird. Per Definition fallen mehr Proben in den Bereich der Normalität als außerhalb. Es ist daher wahrscheinlicher, größere p-Werte als kleinere zu finden.

Gahariet
quelle
3
-1. Das ist völlig falsch. Ich frage mich, wer das getan hat. P-Werte unter Punkt H0 sind gleichmäßig verteilt.
Amöbe
1
-1. Dies ist nicht einmal sinnvoll genug, um als falsch bezeichnet zu werden: "Range of Normality" ist bedeutungslos und p-Werte haben von Natur aus überhaupt nichts mit Normalverteilungen zu tun.
Whuber