Entspricht die Zurückweisung der Hypothese mit dem p-Wert der Hypothese, die nicht zum Konfidenzintervall gehört?

29

Während ich formal das Konfidenzintervall einer Schätzung ableitete, kam ich zu einer Formel, die der Berechnung des Werts sehr ähnlich ist.p

Daher die Frage: Sind sie formal gleichwertig? Dh lehnt eine Hypothese mit einem kritischen Wert gleich nicht zum Konfidenzintervall mit kritischem Wert ?H0=0α0α

Jorge Leitao
quelle
2
@f coppens: Ja, wenn zwei Tests mit unterschiedlichen Statistiken verwendet werden, ergeben sich zwei unterschiedliche Konfidenzintervalle. Ich denke jedoch, dass das OP eine grundlegende Tatsache entdeckt hat: Sowohl das Konfidenzintervall als auch der p-Wert werden aus der Verteilung derselben Statistik erhalten, sodass beide verwendet werden können, um zu entscheiden, ob die Nullhypothese zurückgewiesen wird oder nicht.
StijnDeVuyst
1
@StijnDeVuyst: Das Clopper / Pearon-Intervall für eine Proportion und das Sterne-Intervall für eine Proportion werden beide aus der Binomialverteilung mit derselben Größe abgeleitet (das p ist unbekannt, da sie ein Konfidenzintervall für p finden). Der Unterschied zwischen Clopper / Pearson und Sterne ist auf die Asymmetrie der Binomialdichte zurückzuführen. Das Sterne-Intervall versucht, die Breite des Intervalls zu minimieren, und Clopper_pearson versucht, die Symmetrie beizubehalten (aufgrund der Schiefe des Binoms kann dies jedoch nur ungefähr gefunden werden).
6
Im Allgemeinen nicht, nein. Betrachten Sie Fälle, in denen die Breite des Intervalls eine Funktion des geschätzten Parameterwerts ist, während die Breite des Intervalls für den Test eine Funktion des hypothetischen Werts ist. Ein naheliegendes Beispiel wäre das Testen eines Binomials p. Verwenden wir die normalen ca. der Einfachheit halber (obwohl die Form des Arguments nicht darauf beruht). Betrachte n = 10 und eine Null von p = 0,5. Stellen Sie sich vor, Sie beobachten zwei Köpfe. Die Null wird nicht zurückgewiesen (weil "2" innerhalb eines 95% -Intervalls von etwa 0,5 liegt), aber der CI für p enthält nicht 0,5 (weil der CI enger ist als die Intervallbreite unter der Null.
Glen_b -Reinstate Monica
4
Oder wenn es groß genug sein soll, dass die normale ungefähre Größe gut ist, versuchen Sie es mit 469 Köpfen in 1000 Würfen, für H0 p = 0,5; Wiederum enthält der 95% CI für p nicht 0,5, aber der 5% Test wird nicht zurückgewiesen, da die entsprechende Intervallbreite unter H0 breiter ist als unter der Alternative (woraus Sie den CI machen).
Glen_b
4
@ Glen_b: Es scheint, dass diese neuere Frage stats.stackexchange.com/questions/173005 ein Beispiel für genau die Situation bietet, die Sie hier beschrieben haben.
Amöbe sagt Reinstate Monica

Antworten:

32

Ja und nein.

Zuerst das "Ja"

Was Sie beobachtet haben, ist, dass, wenn ein Test und ein Konfidenzintervall auf derselben Statistik basieren, es eine Äquivalenz zwischen ihnen gibt: Wir können den Wert als den kleinsten Wert von interpretieren, für den der Nullwert des Parameters würde in das Konfidenzintervall einbezogen .pα1α

Sei ein unbekannter Parameter im Parameterraum , und sei die Stichprobe ist eine Realisierung der Zufallsvariablen . Definieren Sie der Einfachheit halber ein Konfidenzintervall als ein zufälliges Intervall, so dass dessen Überdeckungswahrscheinlichkeit (Sie könnten auch allgemeinere Intervalle in Betracht ziehen, bei denen die Wahrscheinlichkeit der Erfassung entweder durch begrenzt ist oder ungefähr gleich . Die Begründung ist analog.)θΘRx=(x1,,xn)XnRnX=(X1,,Xn)Iα(X)

Pθ(θIα(X))=1αfor all α(0,1).
1α

Betrachten Sie einen zweiseitigen Test der Punkt-Null-Hypothese gegen die Alternative . Es sei der p-Wert des Tests. Für jede , wird auf der Ebene abgelehnt wenn . Die Stufe Zurückweisungsregion ist die Menge von die zur Zurückweisung von : H0(θ0):θ=θ0H1(θ0):θθ0λ(θ0,x)α(0,1)H0(θ0)αλ(θ0,x)αα xH0(θ0)

Rα(θ0)={xRn:λ(θ0,x)α}.

Betrachten Sie nun eine Familie von zweiseitigen Tests mit p-Werten für . Für eine solche Familie können wir einen invertierten Zurückweisungsbereichλ(θ,x)θΘ

Qα(x)={θΘ:λ(θ,x)α}.

Für jedes feste ; wird abgelehnt, wenn ; , was genau dann geschieht, wenn & ; das heißt, Wenn der Test auf einer Teststatistik mit einer vollständig spezifizierten absolut kontinuierlichen basiert, dann ist unter . Dann ist Da diese Gleichung für jedesθ0H0(θ0)xRα(θ0)θ0Qα(x)

xRα(θ0)θ0Qα(x).
λ(θ0,X)U(0,1)H0(θ0)
Pθ0(XRα(θ0))=Pθ0(λ(θ0,X)α)=α.
θ0Θund da die obige Gleichung impliziert, dass folgt, dass die Zufallsmenge den wahren Parameter mit der Wahrscheinlichkeit . Wenn das Komplement von , haben wir für alle was bedeutet, dass das Komplement der invertierten Zurückweisungsregion ein Konfidenzintervall für .
Pθ0(XRα(θ0))=Pθ0(θ0Qα(X)),
Qα(x)θ0αQαC(x)Qα(x)θ0Θ
Pθ0(θ0QαC(X))=1α,
1αθ

Nachfolgend wird eine Abbildung gezeigt, die die Abstoßungsbereiche und Konfidenzintervalle zeigt, die dem Test für einen normalen Mittelwert für verschiedene Nullmittelwerte und verschiedene Stichprobenmittelwerte mit . wird verworfen, wenn im schattierten hellgrauen Bereich liegt. Dunkelgrau dargestellt ist der Zurückweisungsbereich und das Konfidenzintervall . zθx¯σ=1H0(θ)(x¯,θ)R0.05(0.9)=(,1.52)(0.281,)I0.05(1/2)=Q0.05C(1/2)=(0.120,1.120)Bildbeschreibung hier eingeben

(Ein Großteil davon stammt aus meiner Doktorarbeit .)

Nun zum "Nein"

Oben habe ich die Standardmethode zum Erstellen von Konfidenzintervallen beschrieben. In diesem Ansatz verwenden wir eine Statistik, die sich auf den unbekannten Parameter bezieht, um das Intervall zu konstruieren. Es gibt auch Intervalle, die auf Minimierungsalgorithmen basieren und versuchen, die Länge der Intervallbedingung für den Wert von zu minimieren . In der Regel entsprechen solche Intervalle keinem Test.θX

Dieses Phänomen hat mit Problemen zu tun, die damit zusammenhängen, dass solche Intervalle nicht verschachtelt sind, was bedeutet, dass das 94% -Intervall kürzer sein kann als das 95% -Intervall. Weitere Informationen hierzu finden Sie in Abschnitt 2.5 meines jüngsten Papiers (erscheint in Bernoulli).

Und ein zweites "Nein"

In einigen Fällen basiert das Standard-Konfidenzintervall nicht auf derselben Statistik wie der Standardtest (wie in diesem Artikel von Michael Fay erläutert ). In diesen Fällen liefern Konfidenzintervalle und Tests möglicherweise nicht dieselben Ergebnisse. Zum Beispiel kann vom Test zurückgewiesen werden, obwohl 0 im Konfidenzintervall enthalten ist. Dies widerspricht nicht dem obigen "Ja", da unterschiedliche Statistiken verwendet werden.θ0=0

Und manchmal ist "ja" keine gute Sache

Wie von f coppens in einem Kommentar hervorgehoben, haben Intervalle und Tests manchmal etwas widersprüchliche Ziele. Wir wollen kurze Intervalle und Tests mit hoher Leistung, aber das kürzeste Intervall entspricht nicht immer dem Test mit der höchsten Leistung. Für einige Beispiele dafür finden Sie dieses Papier (multivariate Normalverteilung), oder diese (Exponentialverteilung) oder § 4 meiner Arbeit .

Bayesianer können auch Ja und Nein sagen

Vor einigen Jahren habe ich hier eine Frage gestellt, ob eine Testintervalläquivalenz auch in der Bayes'schen Statistik existiert. Die kurze Antwort ist, dass bei Verwendung von Standard-Bayes'schen Hypothesentests die Antwort "nein" lautet. Wenn Sie das Testproblem ein wenig umformulieren, lautet die Antwort jedoch "Ja". (Meine Versuche, meine eigene Frage zu beantworten, wurden schließlich zu einer Zeitung !)

MånsT
quelle
2
Gute Antwort (+1) und (Sie tun dies teilweise) Es mag gut sein, darauf hinzuweisen, dass Konfidenzintervalle und Hypothesentests manchmal (potenziell) widersprüchliche Ziele haben: Man versucht, ein Konfidenzintervall zu finden, das "so klein wie möglich" ist zum Testen von Hypothesen wird versucht, einen kritischen Bereich zu finden, der "so leistungsfähig wie möglich" ist.
@fcoppens: Danke für den Vorschlag! Ich habe meine Antwort mit einigen Zeilen darüber aktualisiert.
MånsT
Schöne These! Hast du auch an Sterne Intervall gearbeitet?
@fcoppens: Ja, ich habe einige Arbeiten im Sterne-Intervall durchgeführt, hauptsächlich in diesem
Artikel
7
@amoeba: Eigentlich denke ich, dass sein "Nein" mein zweites "Nein" ist. Soweit ich das beurteilen kann, basiert er das Konfidenzintervall auf der Statistik und dem Test in der Statistik . Beachten Sie den Unterschied im Nenner. Sie können Tests und Intervalle mit beiden Statistiken erstellen. Solange Sie für beide dieselbe Statistik verwenden, gibt es keine Diskrepanzen. T1=(p^p)/p^(1p^)/nT2=(p^p)/p(1p)/n
MånsT
2

Bei der Betrachtung eines einzelnen Parameters ist es möglich, dass ein Test über den Wert des Parameters und das Konfidenzintervall "nicht übereinstimmt", je nachdem wie diese aufgebaut sind. Insbesondere ist ein Hypothesentest ein Level -Test, wenn er die Nullhypothese als Anteil der Zeit ablehnt, zu der die Nullhypothese wahr ist. Aus diesem Grund kann man zB Schätzungen von Modellparametern (zB der Varianz) verwenden, die nur unter der Nullhypothese gültig sind. Wenn man dann versucht, ein CI durch Invertieren dieses Tests zu konstruieren, stimmt die Abdeckung unter der alternativen Hypothese möglicherweise nicht ganz. Aus diesem Grund würde man in der Regel ein Konfidenzintervall anders konstruieren, damit die Abdeckung auch unter der Alternative stimmt, was dann zu einer (meist sehr kleinen) Fehlanpassung führen kann.αα

Björn
quelle