Wie funktioniert der wilde Bootstrap intuitiv?

8

Ich versuche die Intuition hinter dem Wild-Bootstrap zu verstehen. Was macht es eigentlich? Ich muss verstehen können, was es im Vergleich zu einer herkömmlichen Regression zu tun versucht.

Meine Daten sind heteroskedastisch und die von mir verwendete Methode führt 5000 Replikationen durch.

Wie werden 5000 zusätzliche Daten generiert?

Francis Origi
quelle

Antworten:

9

Angenommen, Sie haben einen Trainingssatz T von n Beispielpaaren (yi,xi) .

Ein normaler Bootstrap ist , einen Satz B von n Beispiel Paaren (yri,xri) , wobei ri eine Folge ist n Zufallszahlen gleichmäßig von 1 bis abgetastete n . Beachten Sie insbesondere, dass jedes Beispiel in B genau das gleiche wie eines der Beispiele aus T ist und einige wiederholt werden. Dies ist jedoch etwas seltsam, insbesondere wenn die Antwortvariable kontinuierlich ist, da wir mit ziemlicher Sicherheit nicht einmal eine exakte Stichprobe erhalten würden, wenn wir die ursprüngliche Population erneut abtasten würden duplizieren, während ein Bootstrap wahrscheinlich viele haben wird.

Um Duplikate zu vermeiden, müssen die Beispiele für B keine Durchschläge von Beispielen aus T , sondern synthetische Beispiele, die eher so aussehen, wie wir sie aus der ursprünglichen Population erhalten würden. Dies erfordert eine Annahme über die Verteilung der ursprünglichen Bevölkerung.

Wenn wir Homoskedastizität annehmen und ein lineares Modell an T anpassen, das Residuen ei hat, können wir neue synthetische Beispiele konstruieren, indem wir das angepasste Residuum aus jedem Beispiel durch das Residuum aus einem anderen Trainingsbeispiel ersetzen . Wenn die Residuen wirklich iid sind, sollte es kein Problem geben, sie gegeneinander auszutauschen. Wir ersetzen dies durch Subtrahieren des für das Trainingsbeispiel gefundenen Residuums (yi,xi) und Addieren des Residuums für ein anderes Beispiel:

(1)yi=yrieri+eri

Wobei ri und ri zwei verschiedene und unabhängige Resamplings sind. Wir können dann den Bootstrap auf die übliche Weise bilden:

(2)B={(yi,xi)}i=1n

Dies wird als Residuen-Bootstrap bezeichnet und kann als Auswahl neuer Residuen aus der empirischen Verteilungsfunktion von Residuen angesehen werden.

vi

(3)yi=yrieri+vieri

viN(0,1)vi{1,1}

Olooney
quelle
Im Grunde genommen generieren wir also Fehler, die sich genauso verhalten wie die tatsächlichen Residuen, und erhalten dann tatsächliche Daten, die sich genauso verhalten wie die tatsächlichen Daten. Irgendwelche Lehrbücher zu empfehlen?
Francis Origi
Was machen wir dann mit all diesen zusätzlichen Daten? Wie berechnen wir die T-Statistiken usw.?
Francis Origi