Zwei Definitionen des p-Wertes: Wie kann man ihre Äquivalenz beweisen?

11

Ich lese in Larry Wassermans Buch All of Statistics und derzeit über p-Werte (Seite 187). Lassen Sie mich zunächst einige Definitionen einführen (ich zitiere):

Definition 1 Die Leistungsfunktion eines Tests mit Verwerfungsbereich R ist definiert durch

β(θ)=Pθ(XR)
Die Größe eines Tests definiert werden soll
α=supθΘ0β(θ)
Ein Test ist soll das Niveau α wenn seine Größe kleiner oder gleich α .

Dies besagt im Grunde, dass α , die Größe die "größte" Wahrscheinlichkeit eines Fehlers vom Typ I ist. Der p Wert wird dann definiert über (ich zitiere)

Definition 2 Angenommen, wir haben für jedes α(0,1) einen Test der Größe α mit dem Ablehnungsbereich Rα . Dann ist

p-value=inf{α:T(Xn)Rα}
wobei Xn=(X1,,Xn) .

Für mich bedeutet dies: Bei einem bestimmten α gibt es einen Test- und Zurückweisungsbereich Rα so dass α=supθΘ0(α)Pθ(T(Xn)Rα) . Für den p Wert nehme ich dann einfach den kleinsten von all diesen α .

Frage 1 Wenn dies der Fall wäre, könnte ich eindeutig α=ϵ für beliebig kleine wählen ϵ. Was ist meine falsche Interpretation von Definition 2, dh was bedeutet das genau?

Nun setzt Wasserman fort und gibt einen Satz an, der eine "äquivalente" Definition des p Wertes enthält, mit der ich vertraut bin (ich zitiere):

Satz Angenommen, der Test der Größe α hat die Form H 0

reject H0T(Xn)cα
Dann
p-value=supθΘ0Pθ(T(Xn)T(xn))
, wobeixn ist der beobachtete Wert vonXn .

Hier ist meine zweite Frage:

Frage 2 Wie kann ich diesen Satz tatsächlich beweisen? Vielleicht liegt es an meinem Missverständnis der Definition des p Werts, aber ich kann es nicht herausfinden.

Mathematik
quelle
4
Es ist positiv seltsam, dass Wasserman Macht als " " definiert, da das Symbol β fast universell für die Fehlerrate vom Typ II verwendet wird (dh Macht = 1- β für fast jeden anderen Autor, der Macht diskutiert). Es fällt mir schwer, mir eine Wahl der Notation vorzustellen, die zu schlimmerer Verwirrung führen kann, als wenn ich absichtlich darauf aus bin, sie zu verursachen. βββ
Glen_b -State Monica
1
Ich stimme zu, dass das seltsam ist, Glen - aber Casella und Berger machen dasselbe und ihr Text ist meiner Meinung nach der Goldstandard für die statistische Theorie.
Matt Brems

Antworten:

6

Wir haben einige multivariate Daten , die aus einer Verteilung D mit einem unbekannten Parameter θ stammen . Beachten Sie, dass x Stichprobenergebnisse sind.xDθx

Wir wollen eine Hypothese über einen unbekannten Parameter testen , die Werte von θ unter der Nullhypothese liegen in der Menge θ 0 .θθθ0

Im Raum des können wir einen Zurückweisungsbereich R definieren , und die Leistung dieses Bereichs R wird dann definiert als P R ˉ θ = P ˉ θ ( x R ) . So dass die Leistung wird berechnet für einen bestimmten Wert ˉ θ von θ als die Wahrscheinlichkeit , dass die Probe Ergebnis x in der Verwerfungsbereich ist R , wenn der Wert von θ ist ˉ θ . Offensichtlich hängt die Leistung von der Region R abXRRPθ¯R=Pθ¯(xR)θ¯θxR θθ¯Rund auf dem gewählten .θ¯

Definition 1 definiert die Größe des Bereichs R als das Supremum aller Werte von für ˉ θ in θ 0 , also nur für Werte von ˉ θ unter H 0 . Offensichtlich ist dies abhängig von der Region, so α R = s u p ˉ & thgr;& thgr; 0 P R ˉ & thgr; .Pθ¯Rθ¯θ0θ¯H0αR=supθ¯θ0Pθ¯R

Als abhängt R haben wir einen anderen Wert , wenn die Region ändert, und dies ist die Grundlage , um die p-Wert für die Definition: Änderung der Region, aber in einer Weise , dass die Probe noch beobachteten Wert in der Region gehört, für jede dieser Region, berechne das α R wie oben definiert und nimm das Infimum: p v ( x ) = i n f R | x R α R . Der p-Wert ist also die kleinste Größe aller Regionen, die x enthalten .αRRαRpv(x)=infR|xRαRx

Der Satz ist dann nur eine 'Übersetzung' davon, nämlich der Fall, in dem die Regionen unter Verwendung einer Statistik T definiert werden und für einen Wert c eine Region R als R = { x | definiert wird T ( x ) c } . Wenn Sie diese Art von Region R in der obigen Argumentation verwenden, folgt der Satz.RTcRR={x|T(x)c}R

BEARBEITEN wegen Kommentaren:

@ user8: für den Satz; Wenn Sie Ablehnungsbereiche wie im Satz definieren, ist ein Zurückweisungsbereich der Größe eine Menge, die wie folgt aussieht: R α = { X | T ( X ) c α } für einige c α .αRα={X|T(X)cα}cα

Um den p-Wert eines beobachteten Wertes , dh p v ( x ) , müssen Sie den kleinsten Bereich R finden , dh den größten Wert von c, so dass { X | T ( X ) c } enthält immer noch x , letzteres (die Region enthält x ) entspricht (aufgrund der Art und Weise, wie die Regionen definiert sind) der Aussage, dass c T ( x ) ist , so dass Sie das größte c wie z dass { X | T.xpv(x)Rc{X|T(X)c} xxcT(x)c{X|T(X)c&cT(x)}

Offensichtlich ist der größte , so dass c T ( x ) sollte sein c = T ( x ) und dann der Satz über wird { X | T ( X ) c = T ( x ) } = { X | T ( X ) T ( x ) }ccT(x)c=T(x){X|T(X)c=T(x)}={X|T(X)T(x)}


quelle
Vielen Dank für Ihre Antwort. Zur Frage nach der Validierung des Satzes: Fehlt nicht irgendwie ein über α ? infα
Mathe
@ user8: Ich habe am Ende meiner Antwort einen Absatz hinzugefügt. Sehen Sie jetzt den Punkt mit dem Infimum?
7

In Definition 2 ist der Wert einer Teststatistik die größte Untergrenze von allen α, so dass die Hypothese für einen Test der Größe α verworfen wird . Denken Sie daran, dass je kleiner wir α machen, desto weniger Toleranz für Fehler vom Typ I wir zulassen, sodass auch der Zurückweisungsbereich R α abnimmt. (Sehr) informell gesehen ist der p- Wert das kleinste α, das wir wählen können, sodass wir H 0 für die beobachteten Daten immer noch ablehnen können. Wir können nicht willkürlich ein kleineres α wählen, weil irgendwann R αpαααRαpαH0αRα wird so klein sein, dass es das beobachtete Ereignis ausschließt (dh nicht enthält).

In Anbetracht des Vorstehenden lade ich Sie ein, den Satz zu überdenken.

Heropup
quelle
Ich bin immer noch ein bisschen verwirrt. Ist also zunächst in Definition die Statistik T für alle α festgelegt ? Ich bin mit Ihrer Aussage nicht einverstanden: "... irgendwann wird R α so klein sein, dass es das beobachtete Ereignis ausschließt (dh nicht enthält)." Völlig in Ordnung, wenn R α so klein ist, dass es die beobachtete Probe nicht enthält, lehnen wir H 0 nicht ab . Was ist das Problem damit? Vielen Dank für Ihre Hilfe / Geduld2TαRαRαH0
Mathe
Yes. The test statistic T is a predetermined fixed function of the sample, where "fixed" in this sense means that the form of the function does not change for any α. The value it takes on may (and should) depend on the sample. Your statement "we don't reject H0" reveals why your disagreement is incorrect: by definition, Rα comprises the set of all values for which the test statistic leads to rejection of the null. That's why it's labeled R--for "R"ejection. I will post an update to my answer to explain in more detail.
heropup
Many thanks for your quick answer and in advance for your updated version. What I meant was the following: We reject H0 if T(xn)Rα, where xn is the observed sample. Say I'm very extreme and choose Rα very small, so that for the given sample T(xn)Rα which just means we DONT reject H0. So a small Rα isnt apriori a bad thing. Clearly, at one point it is so small, that's very very very unlikely to observe a sample belonging to Rα. Again, thanks for your patience / help. really appreciated!
math
2
The given definition of p-value explicitly requires the test statistic for the sample to be in the rejection region. You are not free to change that part of the definition of p-value.
Glen_b -Reinstate Monica
@Glen_b Thanks for the comment. Indeed, my previous comment does violate the definition. Thanks for pointing it out.
math