Warum sollten die Daten beim Testen der Bootstrap-Hypothese unter Nullhypothese neu abgetastet werden?

11

Die einfache Anwendung des Bootstrap - Verfahrens zur Überprüfung der Hypothese ist das Konfidenzintervall der Teststatistik zu schätzen θ , indem wiederholt auf Bootstrap Proben Berechnung (Let die Statistik θ aus Bootstrap abgetastet aufgerufen werden ^ θ * ). Wir lehnen H 0 ab, wenn der hypothetische Parameter θ 0 (der normalerweise gleich 0 ist) außerhalb des Konfidenzintervalls von ^ θ ∗ liegt .θ^θ^θ^H0θ0θ^

Ich habe gelesen, dass dieser Methode etwas Kraft fehlt. In dem Artikel von Halle P. und Wilson SR „Zwei Richtlinien für die Bootstrap Hypothesentests“ (1992) wird sie als die erste Leitlinie geschrieben, dass ein Resampling sollte θ^θ^ , nicht die θ^θ0 . Und das ist der Teil, den ich nicht verstehe.

Ist das nicht der θ^θ^ misst nur die Vorspannung der Schätzer θ^ ? Für unvoreingenommene Schätzer die Konfidenzintervalle dieser Ausdruck sollte immer kleiner sein als θ^θ0 , aber ich sehe nicht, was es zu tun hat mit dem Testenθ^=θ0? Ich kann nirgends sehen, dass wir Informationen übereingebenθ0.


Für diejenigen unter Ihnen, die keinen Zugang zu diesem Artikel haben, ist dies ein Zitat des relevanten Absatzes, der unmittelbar nach der Arbeit kommt:

Um zu verstehen, warum dies wichtig ist, beachten Sie, dass der Test die Zurückweisung von beinhaltet, H0wenn in |θ^θ0| es ist zu groß." Wenn θ0 weit vom wahren Wert von θ (dh wenn H0 grob der Fehler ist), dann ist die Differenz |θ^θ0|wird im Vergleich zur nichtparametrischen Bootstrap-Distribution von nie viel zu groß aussehen Θ - θ 0 | |θ^θ0|. Ein aussagekräftigerer Vergleich ist mit der Verteilung von|θ^θ^|. Wenn der wahre Wert vonθ; thgr ; 1θ1 ist, erhöht sich die Leistung des Bootstrap-Teststatsächlichauf 1 als|θ1θ0|erhöht sich, sofern der Test auf Resampling basiert |θ^θ^|, aber die Leistung nimmt auf höchstens das Signifikanzniveau ab (wenn|θ1θ0| zunimmt), wenn der Test auf Resampling | basiert θ -|θ^θ0|

Adam Ryczkowski
quelle

Antworten:

7

Dies ist das Prinzip der Bootstrap-Analogie. Die (unbekannt) wahre Verteilung zugrundeliegenden erzeugt eine Probe zur Hand x 1 , ... , x n mit cdf F n , die wiederum erzeugt die Statistik θ = T ( F n ) für einige funktionelle T ( ) . Ihre Idee, den Bootstrap zu verwenden, besteht darin, Aussagen über die Stichprobenverteilung basierend auf einer bekannten Verteilung ˜ F zu treffenFx1,,xnFnθ^=T(Fn)T()F~Wenn Sie versuchen, ein identisches Stichprobenprotokoll zu verwenden (was nur für ID-Daten genau möglich ist; abhängige Daten führen immer zu Einschränkungen bei der Genauigkeit der Wiedergabe des Stichprobenprozesses) und dasselbe funktionale anwenden . Ich habe es in einem anderen Beitrag mit einem übersichtlichen Diagramm demonstriert . So ist der Bootstrap - Analogon der (Sampling + systematischen) Abweichung θ - θ 0 , die Menge des zentralen Interesses ist die Abweichung der Bootstrap - Replikation θ * von dem, was für die Verteilung um wahr zu sein bekannt ist ~ F , die Probenahme Prozess, den Sie angewendet haben, und die funktionaleT()θ^θ0θ^F~T()Das heißt, Ihr Maß für die zentrale Tendenz ist . Wenn Sie den nichtparametrischen Standard-Bootstrap mit Ersetzung aus den Originaldaten verwendet haben, ist ˜ F = F n , sodass Ihr Maß für die zentrale Tendenz T ( F n ) ≡ sein mussT(F~)F~=Fn auf der Grundlage der ursprünglichen Daten.T(Fn)θ^

Neben der Übersetzung gibt es subtilere Probleme bei den Bootstrap-Tests, die manchmal schwer zu überwinden sind. Die Verteilung einer Teststatistik unter der Null kann sich drastisch von der Verteilung der Teststatistik unter der Alternative unterscheiden (z. B. bei Tests an der Grenze des Parameterraums, die mit dem Bootstrap fehlschlagen ). Die einfachen Tests, die Sie in Grundschulklassen wie Test lernen, sind unter Verschiebung unveränderlich, aber der Gedanke "Heck, ich verschiebe einfach alles" schlägt fehl, sobald Sie zur nächsten Stufe der konzeptionellen Komplexität übergehen müssen, den asymptotischen χ 2- Tests. Denken Sie darüber nach: Sie testen, dass μ = 0 und Ihr beobachtetes ˉ x =tχ2μ=0 . Dannwenn Sie ein Konstrukt χ 2 - Test ( ˉ x - μ ) 2 / ( s 2 / n ) ˉ x 2 / ( s 2 / n ) mit der BootstrapAnalog ˉ x 2 * / ( s 2 * / n ) , dann hat dieser Test eine eingebaute Nichtzentralität von n ˉ x 2 / s 2x¯=0.78χ2(x¯μ)2/(s2/n)x¯2/(s2/n)x¯2/(s2/n)nx¯2/s2von Anfang an, anstatt ein zentraler Test zu sein, wie wir es erwarten würden. Um den Bootstrap-Test zentral zu machen, müssen Sie die ursprüngliche Schätzung wirklich subtrahieren.

Die -Tests sind in multivariaten Kontexten unvermeidbar und reichen von Pearson χ 2 für Kontingenztabellen bis zum Bollen-Stine-Bootstrap der Teststatistik in Strukturgleichungsmodellen. Das Konzept der Verschiebung der Verteilung ist in diesen Situationen äußerst schwer gut zu definieren ... obwohl dies bei den Tests an den multivariaten Kovarianzmatrizen durch eine geeignete Rotation möglich ist .χ2χ2

StasK
quelle
Thank you. There is one think I still don't understand: where do we put information about θ0 in the bootstrap? Where H0 is false, the θ0 might be considerably off from the true distribution.
Adam Ryczkowski
You compute the p-value under the null, so you should be considering the case when the θ0 conforms to the null. Considering the alternative is of course worth doing under the alternative, but that's... wow... that would be an advanced use of the bootstrap testing methodology.
StasK
3

OK, I've got it. Thank you, StasK, for such a good answer. I'll keep it accepted for others to learn, but in my particular case I was missing a very simple fact:

The procedure of bootstrap in accordance to Hall&Wilson guidelines for simple one-sampled mean test is this (in R-inspired pseudo code):

1function(data, θ0 ) {
2 θ^ t.test(data, mu = θ0 )$statistic
3 count 0
4for(i in 1:1000){
5 bdata sample(data)
6 θ^ t.test(bdata, mu = θ^ )$statistic
7 if ( θ^θ^ ) count++
8 }
9 count/1000
10 }

The part I missed was that the θ0 was "used" in line 2 (where we set the reference θ^).

It is interesting to note, that in the line 2 and 6 we could equally easily use p.value instead of statistic. In that case we should also change the into in line 7.

Adam Ryczkowski
quelle
I upvoted earlier, but then realized that this is actually incorrect. According to Hall & Wilson (Section 2, pg. 278), θ^ is an estimator of θ, not the test statistic as you've shown. The way that θ0 comes into play is that we form a resampled distribution of (θ^θ^), then see if (θ^θ0) looks "extreme" compared to the resampled distribution.
half-pass
1
Perhaps helpful: Michael Chernick provided a succinct intuition in answer to my related question here. stats.stackexchange.com/questions/289236/…)
half-pass