Wie funktioniert der wilde Bootstrap intuitiv?

Angenommen, Sie haben einen Trainingssatz $\mathcal{T}$ von $n$ Beispielpaaren $(y_i, \vec{x}_i)$ .

Ein normaler Bootstrap ist , einen Satz $\mathcal{B}$ von $n$ Beispiel Paaren $(y_{r_i}, \vec{x}_{r_i})$ , wobei $r_i$ eine Folge ist $n$ Zufallszahlen gleichmäßig von 1 bis abgetastete $n$ . Beachten Sie insbesondere, dass jedes Beispiel in $\mathcal{B}$ genau das gleiche wie eines der Beispiele aus $\mathcal{T}$ ist und einige wiederholt werden. Dies ist jedoch etwas seltsam, insbesondere wenn die Antwortvariable kontinuierlich ist, da wir mit ziemlicher Sicherheit nicht einmal eine exakte Stichprobe erhalten würden, wenn wir die ursprüngliche Population erneut abtasten würden duplizieren, während ein Bootstrap wahrscheinlich viele haben wird.

Um Duplikate zu vermeiden, müssen die Beispiele für $\mathcal{B}$ keine Durchschläge von Beispielen aus $\mathcal{T}$ , sondern synthetische Beispiele, die eher so aussehen, wie wir sie aus der ursprünglichen Population erhalten würden. Dies erfordert eine Annahme über die Verteilung der ursprünglichen Bevölkerung.

Wenn wir Homoskedastizität annehmen und ein lineares Modell an $\mathcal{T}$ anpassen, das Residuen $e_i$ hat, können wir neue synthetische Beispiele konstruieren, indem wir das angepasste Residuum aus jedem Beispiel durch das Residuum aus einem anderen Trainingsbeispiel ersetzen . Wenn die Residuen wirklich iid sind, sollte es kein Problem geben, sie gegeneinander auszutauschen. Wir ersetzen dies durch Subtrahieren des für das Trainingsbeispiel gefundenen Residuums $(y_i, \vec{x}_i)$ und Addieren des Residuums für ein anderes Beispiel:

\begin{matrix} (1) & y_{i}^{*} = y_{r_{i}} - e_{r_{i}} + e_{r_{i}^{'}} \end{matrix}

$y^*_i = y_{r_i} - e_{r_i} + e_{r'_i} \tag{1}$

Wobei $r_i$ und $r'_i$ zwei verschiedene und unabhängige Resamplings sind. Wir können dann den Bootstrap auf die übliche Weise bilden:

\begin{matrix} (2) & B = {(y_{i}^{*}, {\vec{x}}_{i})}_{i = 1}^{n} \end{matrix}

$\mathcal{B} = \{\, (y^*_i, \vec{x}_i)\, \}_{i=1}^n \tag{2}$

Dies wird als Residuen-Bootstrap bezeichnet und kann als Auswahl neuer Residuen aus der empirischen Verteilungsfunktion von Residuen angesehen werden.

$v_i$

\begin{matrix} (3) & y_{i}^{*} = y_{r_{i}} - e_{r_{i}} + v_{i} e_{r_{i}^{'}} \end{matrix}

$y^*_i = y_{r_i} - e_{r_i} + v_i e_{r'_i} \tag{3}$

$v_i \sim \mathcal{N}(0, 1)$ $v_i$ $\{-1,1\}$

Olooney
quelle

Im Grunde genommen generieren wir also Fehler, die sich genauso verhalten wie die tatsächlichen Residuen, und erhalten dann tatsächliche Daten, die sich genauso verhalten wie die tatsächlichen Daten. Irgendwelche Lehrbücher zu empfehlen?

Francis Origi

Was machen wir dann mit all diesen zusätzlichen Daten? Wie berechnen wir die T-Statistiken usw.?

Francis Origi

Wie funktioniert der wilde Bootstrap intuitiv?

Antworten: