Wie definiere ich einen Ablehnungsbereich ohne UMP?

13

Betrachten Sie das lineare Regressionsmodell

y=Xβ+u ,

uN(0,σ2I) ,

E(uX)=0 .

Sei vs .H 1 : σ 2 0 & ne; σ 2H0:σ02=σ2H1:σ02σ2

Wir können ableiten, dass , wobei . Und ist die typische Notation für die Vernichtermatrix, , wobei die abhängige Variable ist \ mathbf {y} hat sich auf \ mathbf {X} zurückgebildet .yTMXyσ2χ2(nk)dim(X)=n×kMXMXy=y^y^yX

Das Buch, das ich lese, besagt Folgendes: Bildbeschreibung hier eingeben

Ich habe zuvor gefragt, nach welchen Kriterien ein Ablehnungsbereich (Rejection Region, RR) definiert werden soll. Die Antworten auf diese Frage lauten: Wählen Sie den RR aus, der den Test so leistungsfähig wie möglich gemacht hat.

In diesem Fall gibt es normalerweise keinen UMP-Test, wobei die Alternative eine bilaterale zusammengesetzte Hypothese ist. Außerdem zeigen die Autoren anhand der im Buch gegebenen Antwort nicht, ob sie die Leistung ihrer RR untersucht haben. Trotzdem entschieden sie sich für eine zweiseitige RR. Warum ist das so, da die Hypothese die RR nicht "einseitig" bestimmt?

Bearbeiten: Dieses Bild befindet sich im Lösungshandbuch dieses Buches als Lösung für Aufgabe 4.14.

Ein alter Mann im Meer.
quelle
Bitte fügen Sie dem Buch einen Verweis hinzu. Verwandte: P-Wert in einem Two-Tail-Test mit asymmetrischer Nullverteilung .
Scortchi
@Scortchi danke für den Link. Darf ich Sie etwas zu dieser Frage fragen? Findest du es interessant? Ich versuche zu beurteilen, ob ich interessante Fragen stelle oder ob ich meine Interessen auf andere Gebiete richten soll ...
Ein alter Mann im Meer.
Natürlich findet nicht jeder die Theorie interessant, aber einige Leute (einschließlich mir) und wir haben fast 2k qs mit getaggtmathematical-statistics . Also, ein feines q. IMO. Es ist ein wenig weit gefasst, aber ich denke, eine gute Antwort würde verschiedene Ansätze und Überlegungen zusammenfassen, und ein motivierendes Beispiel hilft sehr. (Ich hätte jedoch ein möglichst einfaches Beispiel gewählt - Tests über die Varianz einer Normalverteilung mit bekanntem Mittelwert oder dem Mittelwert einer Exponentialverteilung.) [Übrigens vergesse ich oft, über qs abzustimmen, wenn ich sie kommentiere .]
Scortchi
@Scortchi danke für dein feedback. Manchmal bin ich mir nicht sicher, ob ich die Frage gut strukturiere, da ich das selbst studiere.
Ein alter Mann im Meer.
2
Sie solltenMX
Taylor

Antworten:

7

Es ist einfacher, zunächst den Fall durchzuarbeiten, in dem die Regressionskoeffizienten bekannt und die Nullhypothese daher einfach ist. Dann ist die ausreichende Statistik , wobei z der Rest ist; ihre Verteilung unter der Null ist auch ein Chi-Quadrat von skalierten σ 2 0 & Freiheitsgraden mit zu der Probengröße gleich n .T=z2zσ02n

Schreiben Sie das Verhältnis der Wahrscheinlichkeiten unter & σ = σ 2 auf und bestätigen Sie, dass es eine zunehmende Funktion von T für σ 2 > σ 1 ist :σ=σ1σ=σ2Tσ2>σ1

Die logarithmische Wahrscheinlichkeitsverhältnisfunktion ist , & direkt proportional zuTmit positivem Gradienten, wennσ2>σ1.

(σ2;T,n)(σ1;T,n)=n2[log(σ12σ22)+Tn(1σ121σ22)]
Tσ2>σ1

Nach dem Karlin-Rubin-Theorem ist jeder der einseitigen Tests gegen H A : σ < σ 0 & H 0 : σ = σ 0 gegen H A : σ < σ 0 gleichmäßig am leistungsstärksten. Offensichtlich gibt es keinen UMP Test von H 0 : σ = σ 0 vs H A : σ & ne; σ 0 . Wie hier besprochenH0:σ=σ0HA:σ<σ0H0:σ=σ0HA:σ<σ0H0:σ=σ0HA:σσ0Wenn Sie sowohl einseitige Tests als auch eine Mehrfachvergleichskorrektur durchführen, führt dies zu dem häufig verwendeten Test mit gleich großen Ablehnungsbereichen in beiden Schwänzen. Dies ist durchaus sinnvoll, wenn Sie behaupten, dass entweder oder σ ist < σ 0, wenn Sie die Null ablehnen.σ>σ0σ<σ0

Finden nächste das Verhältnis der Wahrscheinlichkeiten unter , die Maximum-Likelihood - Schätzung von σ & σ = σ 0 :σ=σ^σσ=σ0

Wie σ 2 = T ist die logWahrscheinlichkeitsverhältnisTeststatistikl( σ ;T,n)-l(σ0;T,n)=nσ^2=Tn

(σ^;T,n)(σ0;T,n)=n2[log(nσ02T)+Tnσ021]

Dies ist eine feine Statistik zur Quantifizierung, wie stark die Daten über H 0 : σ = σ 0 . Und Konfidenzintervalle, die sich aus der Invertierung des Likelihood-Ratio-Tests ergeben, haben die ansprechende Eigenschaft, dass alle Parameterwerte innerhalb des Intervalls eine höhere Wahrscheinlichkeit aufweisen als diejenigen außerhalb. Die asymptotische Verteilung des doppelten Log-Likelihood-Verhältnisses ist bekannt, aber für einen genauen Test müssen Sie nicht versuchen, die Verteilung zu berechnen. Verwenden Sie einfach die Schwanzwahrscheinlichkeiten der entsprechenden Werte von T in jedem Schwanz.HA:σσ0H0:σ=σ0T

Wenn Sie keinen einheitlich leistungsstärksten Test haben können, möchten Sie vielleicht einen, der den Alternativen am nächsten kommt, die am leistungsstärksten sind. Bestimmen Sie die Ableitung der log-Likelihood-Funktion in Bezug auf - die Score-Funktion:σ

d(σ;T,n)dσ=Tσ3nσ

σ0H0:σ=σ0HA:σσ0

αϕ(T)=1T<c1T>c2ϕ(T)=0

E(ϕ(T))=αE(Tϕ(T))=αET

Ein Plot hilft dabei, die Verzerrung im Gleichschwanzbereichstest zu zeigen und wie sie entsteht:

Kraftplot des Tests gegen Alternativen

σσ0

Unparteilichkeit ist gut; Es ist jedoch nicht selbstverständlich, dass eine Leistung, die geringfügig unter der Größe eines kleinen Bereichs des Parameterraums in der Alternative liegt, so schlecht ist, dass ein Test insgesamt ausgeschlossen ist.

Zwei der oben genannten zweiseitigen Tests stimmen überein (in diesem Fall nicht generell):

Das LRT ist UMP unter den unvoreingenommene Tests. In Fällen, in denen dies nicht zutrifft, kann das LRT immer noch asymptotisch unvoreingenommen sein.

Ich denke, alle Tests, auch die einseitigen Tests, sind zulässig, dh es gibt keinen leistungsstärkeren oder unter allen Alternativen so leistungsfähigen Test. Sie können den Test gegenüber Alternativen in der einen Richtung leistungsstärker machen, indem Sie ihn gegenüber Alternativen in der anderen Richtung weniger leistungsfähig machen Richtung. Wenn die Stichprobengröße zunimmt, wird die Chi-Quadrat-Verteilung immer symmetrischer, und alle zweiseitigen Tests bleiben weitgehend gleich (ein weiterer Grund für die Verwendung des einfachen Tests mit gleichem Schwanz).

Mit der zusammengesetzten Nullhypothese werden die Argumente etwas komplizierter, aber ich denke, Sie können mutatis mutandis praktisch die gleichen Ergebnisse erzielen. Beachten Sie, dass einer der einseitigen Tests UMP ist, der andere jedoch nicht!

Scortchi - Wiedereinsetzung von Monica
quelle
Scortchi danke für deine Antwort. Ich habe jedoch noch einige Zweifel. Könnten Sie zunächst den folgenden Satz etwas näher erläutern? «Das Anwenden einer Mehrfachvergleichskorrektur führt zu dem häufig verwendeten Test mit gleich großen Ablehnungsbereichen in beiden Schwänzen, und es ist durchaus sinnvoll, wenn Sie behaupten, dass entweder σ> σ0 oder σ <σ0 ist, wenn Sie die Null ablehnen.» Auch warum sagst du, dass es vernünftig ist? Ich denke, das ist der Kern meiner Frage, wenn ich mich nicht irre. ;)
Ein alter Mann im Meer.
Ich habe diesen Absatz aus Ihrer verknüpften Antwort gelesen, aber ich habe ihn nicht gut verstanden. «Die Verdoppelung des niedrigsten einseitigen p-Werts kann als Mehrfachvergleichskorrektur für die Durchführung von zwei einseitigen Tests angesehen werden.» Ich wäre dankbar, wenn Sie könnten es bitte etwas näher erläutern. ;)
Ein alter Mann im Meer.
α/2αα
1

In diesem Fall gibt es normalerweise keinen UMP-Test, wobei die Alternative eine bilaterale zusammengesetzte Hypothese ist.

Ich bin mir nicht sicher, ob das überhaupt stimmt. Sicherlich basieren viele der klassischen Ergebnisse (Neymon-Pearson, Karlin-Rubin) entweder auf einer einfachen oder einer einseitigen Hypothese, aber es gibt Verallgemeinerungen für zweiseitige zusammengesetzte Hypothesen. Einige Hinweise dazu finden Sie hier und weitere Erläuterungen im Lehrbuch hier .

χ2

Greenparker
quelle
3
σ0