Angenommen, Sie haben einen Trainingssatz T. von n Beispielpaaren ( yich, x⃗ ich) .
Ein normaler Bootstrap ist , einen Satz B. von n Beispiel Paaren ( yrich, x⃗ rich) , wobei rich eine Folge ist n Zufallszahlen gleichmäßig von 1 bis abgetastete n . Beachten Sie insbesondere, dass jedes Beispiel in B. genau das gleiche wie eines der Beispiele aus T. ist und einige wiederholt werden. Dies ist jedoch etwas seltsam, insbesondere wenn die Antwortvariable kontinuierlich ist, da wir mit ziemlicher Sicherheit nicht einmal eine exakte Stichprobe erhalten würden, wenn wir die ursprüngliche Population erneut abtasten würden duplizieren, während ein Bootstrap wahrscheinlich viele haben wird.
Um Duplikate zu vermeiden, müssen die Beispiele für B. keine Durchschläge von Beispielen aus T. , sondern synthetische Beispiele, die eher so aussehen, wie wir sie aus der ursprünglichen Population erhalten würden. Dies erfordert eine Annahme über die Verteilung der ursprünglichen Bevölkerung.
Wenn wir Homoskedastizität annehmen und ein lineares Modell an T. anpassen, das Residuen eich hat, können wir neue synthetische Beispiele konstruieren, indem wir das angepasste Residuum aus jedem Beispiel durch das Residuum aus einem anderen Trainingsbeispiel ersetzen . Wenn die Residuen wirklich iid sind, sollte es kein Problem geben, sie gegeneinander auszutauschen. Wir ersetzen dies durch Subtrahieren des für das Trainingsbeispiel gefundenen Residuums ( yich, x⃗ ich) und Addieren des Residuums für ein anderes Beispiel:
y∗ich= yrich- erich+ er'ich(1)
Wobei rich und r'ich zwei verschiedene und unabhängige Resamplings sind. Wir können dann den Bootstrap auf die übliche Weise bilden:
B.= {( y∗ich, x⃗ ich)}}ni = 1(2)
Dies wird als Residuen-Bootstrap bezeichnet und kann als Auswahl neuer Residuen aus der empirischen Verteilungsfunktion von Residuen angesehen werden.
vich
y∗ich= yrich- erich+ vicher'ich(3)
vich∼ N.( 0 , 1 )vich{−1,1}