Betrachten Sie das lineare Regressionsmodell
,
,
.
Sei vs .H 1 : σ 2 0 & ne; σ 2
Wir können ableiten, dass , wobei . Und ist die typische Notation für die Vernichtermatrix, , wobei die abhängige Variable ist \ mathbf {y} hat sich auf \ mathbf {X} zurückgebildet .
Das Buch, das ich lese, besagt Folgendes:
Ich habe zuvor gefragt, nach welchen Kriterien ein Ablehnungsbereich (Rejection Region, RR) definiert werden soll. Die Antworten auf diese Frage lauten: Wählen Sie den RR aus, der den Test so leistungsfähig wie möglich gemacht hat.
In diesem Fall gibt es normalerweise keinen UMP-Test, wobei die Alternative eine bilaterale zusammengesetzte Hypothese ist. Außerdem zeigen die Autoren anhand der im Buch gegebenen Antwort nicht, ob sie die Leistung ihrer RR untersucht haben. Trotzdem entschieden sie sich für eine zweiseitige RR. Warum ist das so, da die Hypothese die RR nicht "einseitig" bestimmt?
Bearbeiten: Dieses Bild befindet sich im Lösungshandbuch dieses Buches als Lösung für Aufgabe 4.14.
quelle
mathematical-statistics
. Also, ein feines q. IMO. Es ist ein wenig weit gefasst, aber ich denke, eine gute Antwort würde verschiedene Ansätze und Überlegungen zusammenfassen, und ein motivierendes Beispiel hilft sehr. (Ich hätte jedoch ein möglichst einfaches Beispiel gewählt - Tests über die Varianz einer Normalverteilung mit bekanntem Mittelwert oder dem Mittelwert einer Exponentialverteilung.) [Übrigens vergesse ich oft, über qs abzustimmen, wenn ich sie kommentiere .]Antworten:
Es ist einfacher, zunächst den Fall durchzuarbeiten, in dem die Regressionskoeffizienten bekannt und die Nullhypothese daher einfach ist. Dann ist die ausreichende Statistik , wobei z der Rest ist; ihre Verteilung unter der Null ist auch ein Chi-Quadrat von skalierten σ 2 0 & Freiheitsgraden mit zu der Probengröße gleich n .T=∑z2 z σ20 n
Schreiben Sie das Verhältnis der Wahrscheinlichkeiten unter & σ = σ 2 auf und bestätigen Sie, dass es eine zunehmende Funktion von T für σ 2 > σ 1 ist :σ=σ1 σ=σ2 T σ2>σ1
Nach dem Karlin-Rubin-Theorem ist jeder der einseitigen Tests gegen H A : σ < σ 0 & H 0 : σ = σ 0 gegen H A : σ < σ 0 gleichmäßig am leistungsstärksten. Offensichtlich gibt es keinen UMP Test von H 0 : σ = σ 0 vs H A : σ & ne; σ 0 . Wie hier besprochenH0:σ=σ0 HA:σ<σ0 H0:σ=σ0 HA:σ<σ0 H0:σ=σ0 HA:σ≠σ0 Wenn Sie sowohl einseitige Tests als auch eine Mehrfachvergleichskorrektur durchführen, führt dies zu dem häufig verwendeten Test mit gleich großen Ablehnungsbereichen in beiden Schwänzen. Dies ist durchaus sinnvoll, wenn Sie behaupten, dass entweder oder σ ist < σ 0, wenn Sie die Null ablehnen.σ>σ0 σ<σ0
Finden nächste das Verhältnis der Wahrscheinlichkeiten unter , die Maximum-Likelihood - Schätzung von σ & σ = σ 0 :σ=σ^ σ σ=σ0
Dies ist eine feine Statistik zur Quantifizierung, wie stark die Daten über H 0 : σ = σ 0 . Und Konfidenzintervalle, die sich aus der Invertierung des Likelihood-Ratio-Tests ergeben, haben die ansprechende Eigenschaft, dass alle Parameterwerte innerhalb des Intervalls eine höhere Wahrscheinlichkeit aufweisen als diejenigen außerhalb. Die asymptotische Verteilung des doppelten Log-Likelihood-Verhältnisses ist bekannt, aber für einen genauen Test müssen Sie nicht versuchen, die Verteilung zu berechnen. Verwenden Sie einfach die Schwanzwahrscheinlichkeiten der entsprechenden Werte von T in jedem Schwanz.HA:σ≠σ0 H0:σ=σ0 T
Wenn Sie keinen einheitlich leistungsstärksten Test haben können, möchten Sie vielleicht einen, der den Alternativen am nächsten kommt, die am leistungsstärksten sind. Bestimmen Sie die Ableitung der log-Likelihood-Funktion in Bezug auf - die Score-Funktion:σ
Ein Plot hilft dabei, die Verzerrung im Gleichschwanzbereichstest zu zeigen und wie sie entsteht:
Unparteilichkeit ist gut; Es ist jedoch nicht selbstverständlich, dass eine Leistung, die geringfügig unter der Größe eines kleinen Bereichs des Parameterraums in der Alternative liegt, so schlecht ist, dass ein Test insgesamt ausgeschlossen ist.
Zwei der oben genannten zweiseitigen Tests stimmen überein (in diesem Fall nicht generell):
Ich denke, alle Tests, auch die einseitigen Tests, sind zulässig, dh es gibt keinen leistungsstärkeren oder unter allen Alternativen so leistungsfähigen Test. Sie können den Test gegenüber Alternativen in der einen Richtung leistungsstärker machen, indem Sie ihn gegenüber Alternativen in der anderen Richtung weniger leistungsfähig machen Richtung. Wenn die Stichprobengröße zunimmt, wird die Chi-Quadrat-Verteilung immer symmetrischer, und alle zweiseitigen Tests bleiben weitgehend gleich (ein weiterer Grund für die Verwendung des einfachen Tests mit gleichem Schwanz).
Mit der zusammengesetzten Nullhypothese werden die Argumente etwas komplizierter, aber ich denke, Sie können mutatis mutandis praktisch die gleichen Ergebnisse erzielen. Beachten Sie, dass einer der einseitigen Tests UMP ist, der andere jedoch nicht!
quelle
Ich bin mir nicht sicher, ob das überhaupt stimmt. Sicherlich basieren viele der klassischen Ergebnisse (Neymon-Pearson, Karlin-Rubin) entweder auf einer einfachen oder einer einseitigen Hypothese, aber es gibt Verallgemeinerungen für zweiseitige zusammengesetzte Hypothesen. Einige Hinweise dazu finden Sie hier und weitere Erläuterungen im Lehrbuch hier .
quelle