Adaptive Auswahl der Anzahl der Bootstrap-Replikate

8

Wie bei den meisten Monte-Carlo-Methoden lautet die Regel für das Bootstrapping: Je größer die Anzahl der Replikate ist, desto geringer ist der Monte-Carlo-Fehler. Da die Renditen jedoch abnehmen, ist es nicht sinnvoll, so viele Replikate wie möglich auszuführen.

Angenommen, Sie möchten sicherstellen, dass Ihre Schätzung θ^ einer bestimmten Größe θ innerhalb von ε der Schätzung θ~ , die Sie mit unendlich vielen Wiederholungen erhalten würden. Beispielsweise möchten Sie möglicherweise ziemlich sicher sein, dass die ersten beiden Dezimalstellen von θ^ aufgrund eines Monte-Carlo-Fehlers nicht falsch sind. In diesem Fall ist ε=.005 . Gibt es eine adaptive Prozedur, die Sie verwenden können, bei der Sie weiterhin Bootstrap-Replikate generieren, \ hat θ überprüfen θ^und gemäß einer Regel anhalten, z. B. |θ^θ~|<ε mit 95% iger Sicherheit?

NB Obwohl die vorhandenen Antworten hilfreich sind, würde ich gerne ein Schema sehen, um die Wahrscheinlichkeit zu steuern, dass |θ^θ~|<ε .

Kodiologe
quelle
Ich lehne es ab, den Bootstrap als Monte-Carlo-Methode zu bezeichnen. Es ist nicht so, dass häufig Monte-Carlo-Methoden benötigt werden, um gute Annäherungen an die Bootstrap-Schätzungen zu erhalten, da eine Aufzählung nicht möglich ist.
Michael R. Chernick
Ich bin mir nicht sicher, was Sie genau fragen. Oft ist es jedoch schwierig, im Voraus zu wissen, wie viele Bootstrap-Replikate Sie benötigen, um die Monte-Carlo-Annäherung an die Bootstrap-Schätzung nahe an der tatsächlichen Bootstrap-Schätzung vorzunehmen. Ich habe vorgeschlagen, so etwas wie das zu tun, was Sie vorschlagen. Das wäre, Replikationen hinzuzufügen, bis die Änderung in der Schätzung gering ist. Dies wäre ein Hinweis auf Konvergenz.
Michael R. Chernick
@ MichaelChernick "Ich bin nicht sicher, was Sie genau fragen." - Was kann ich tun, um dies zu klären?
Kodiologe
Wenn Sie über adaptive Auswahl sprechen, meinen Sie damit, was ich vorschlage? Das heißt, Sie müssen weiterhin Bootstrap-Replikationen durchführen, bis zwei aufeinanderfolgende Schätzungen sehr nahe beieinander liegen (sagen wir, die absolute Differenz ist kleiner als ein angegebenes ). ϵ
Michael R. Chernick
@MichaelChernick Ich glaube nicht, dass es ausreichen würde, Unterschiede zwischen aufeinanderfolgenden θs zu betrachten, um . Aber ich bin mir nicht sicher. θ~|θ^θ~|<ε
Kodiologe

Antworten:

3

Wenn die Schätzung von auf den Replikaten normal verteilt ist, können Sie den Fehler auf aus der Standardabweichung schätzen :θσ^θ^σ

σ^=σn

dann können Sie einfach aufhören, wenn .1.96σ^<ϵ

Oder habe ich die Frage falsch verstanden? Oder möchten Sie eine Antwort ohne Normalität und bei Vorhandensein signifikanter Autokorrelationen?

Fabiob
quelle
Es wäre schön, keine Normalität annehmen zu müssen, aber wir können sicher davon ausgehen, dass die Bootstrap-Replikate unabhängig voneinander ausgewählt werden, wenn dies die Art von Abhängigkeit ist, die Sie unter Autokorrelation verstehen.
Kodiologe
Wenn wir jedoch keine Normalität annehmen, können wir nicht einmal sicher sein, dass der Mittelwert eine gute Schätzung für Theta ist. Ich glaube, wir brauchen mehr Hypothesen, um eine Lösung vorzuschlagen ...
Fabiob
Um genau zu sein, was genau nehmen Sie an, normal zu sein? Ihr Antworttext lautet "Die Replikate sind normal verteilt", aber jedes Replikat ist eine Stichprobe, die dieselbe Größe wie die Originalstichprobe hat. Ich weiß nicht, was es bedeuten würde, wenn eine Sammlung von Proben normal verteilt würde.
Kodiologe
Ich davon aus, dass die Verteilung von die Schätzung der Menge, an der Sie interessiert sind, die Sie für das Replikat durchführen , normal ist . Ich werde meine Formulierung bearbeiten, die unklar war. θii
Fabiob
3
Beachten Sie schließlich, dass meine Antwort und die von Michael gleich sind, wenn Sie C-> und B -> , was einen Weg zur "Bestimmung" von C nahe legt. Sie können die Varianz von oder das Doppelte davon, wenn du willst konservativ sein. Stimmen Sie zu (oder denken Sie, ich vermisse etwas)? σ2nθi
Fabiob
2

Auf den Seiten 113-114 der ersten Ausgabe meines Buches Bootstrap Methods: A Practitioner's Guide Wiley (1999) diskutiere ich Methoden, um zu bestimmen, wie viele Bootstrap-Replikationen bei Verwendung der Monte-Carlo-Näherung durchgeführt werden müssen.

Ich gehe detailliert auf ein Verfahren aufgrund von Hall ein, das in seinem Buch The Bootstrap and Edgeworth Expansion, Springer-Verlag (1992) beschrieben wurde. Er zeigt, dass bei einer großen Stichprobengröße n und einer großen Anzahl von Bootstrap-Replikationen B die Varianz der Bootstrap-Schätzung C / B beträgt, wobei C eine unbekannte Konstante ist, die nicht von n oder B abhängt. Wenn Sie also C bestimmen können Wenn Sie es oben gebunden haben, können Sie einen Wert für B bestimmen, der den Fehler der Schätzung kleiner macht als das , das Sie in Ihrer Frage angegeben haben.ϵ

Ich beschreibe eine Situation mit C = 1/4. Wenn Sie jedoch keine gute Vorstellung davon haben, wie hoch der Wert C ist, können Sie auf den von Ihnen beschriebenen Ansatz zurückgreifen, bei dem Sie B = 500 sagen, und ihn dann auf 1000 verdoppeln und den Unterschied in diesen Bootstrap-Schätzungen vergleichen wiederholt werden, bis der Unterschied so gering ist, wie Sie es möchten.

Eine andere Idee gibt Efron in dem Artikel "Bessere Bootstrap-Konfidenzintervalle (mit Diskussion)", (1987) Journal of the American Statistical Association Vol. 82 S. 171-200.

Michael R. Chernick
quelle
Ah, mit "zwei aufeinanderfolgenden Schätzungen" dachte ich, Sie hätten so etwas wie die Schätzung von aus Replikat 1.002 gegenüber der Schätzung von aus Replikat 1.003 gemeint . Der Vergleich der Schätzung aller ersten 500 Wiederholungen mit der der zweiten 500 oder der ersten 1000 ist intuitiver. θθ
Kodiologe
Ich habe Efron (1987) schon einmal gesehen, aber welcher Teil befasst sich mit der Frage der Auswahl der Anzahl der Bootstrap-Replikate?
Kodiologe
In meinem Buch erwähne ich, dass sie in Efron (1967) und Booth und Sarkar (1998) darauf hinweisen, dass nach einer bestimmten (großen) Anzahl von Iterationen der Fehler in der Bootstrap-Schätzung durch den Fehler aufgrund der Verwendung der empirischen Verteilung dominiert wird (als Annäherung an die Bevölkerungsverteilung) machen den Fehler in der Monte-Carlo-Näherung klein. Ich habe die bestimmte Seite oder Seiten, auf denen dies diskutiert wird, nicht zitiert.
Michael R. Chernick
In dem obigen Kommentar meinte ich Efron (1987).
Michael R. Chernick