Blockieren Sie den Bootstrap für einen Anfänger

9

Um meine Frage in einen Zusammenhang zu bringen, ich bin Physiker, aber nur begrenzt mit Statistiken vertraut, und was ich darüber gelernt habe, war vor über 30 Jahren.

Ich versuche, etwas über Block-Bootstrapping zu lernen, da diese Technik möglicherweise zur Lösung eines Problems geeignet ist, an dem ich arbeite. Ich kann viele Artikel / Bücher / Informationen zur Mathematik des Block-Bootstrappings finden, aber ich möchte zuerst eine allgemeine Beschreibung des Prozesses des Block-Bootstrappings finden, bevor ich mich auf Themen wie das Verschieben von Block-Bootstrapping, das kreisförmige Block-Bootstrapping und das stationäre Block-Bootstrapping einlasse , Blocklängen, Stichprobengröße usw.

Ich habe korrelierte Daten, 5 Variablen (Spalten) um 10000 Beobachtungen (Zeilen) überabgetastet, die ich auf etwa 100 Datenzeilen reduzieren möchte. Die Daten sind eine Zeitreihe, aber nicht fortlaufend, und möglicherweise befinden sich auch Daten von verschiedenen Orten darin. Dies bedeutet, dass Sie gleichzeitig unterschiedliche Daten haben können (wenn letzteres ein Problem beim Block-Bootstrapping darstellt, kann ich "doppelte" Daten entfernen rechtzeitig). Block-Bootstrapping würde es ermöglichen, die Korrelation der Daten zu replizieren.

Das ultimative Ziel besteht darin, den Datensatz auf ~ 100 Datenzeilen zu reduzieren, sodass sowohl PDF als auch PDF des vollständigen Datensatzes und des reduzierten Datensatzes für alle 5 Variablen gleich sind (innerhalb eines noch zu definierenden minimalen Fehlerbereichs).

Frage: 1) Kann Block Bootstrapping dies tun? 2) Wie wird dies Schritt für Schritt durchgeführt? Ich erwarte nicht, dass irgendjemand den gesamten Prozess hier im Detail schreibt, aber vielleicht hat jemand ein Youtube-Video oder ein "Bootstrapping für Dummies" veröffentlicht, mit dem ich beginnen könnte.

Ich habe mir hier ähnliche Fragen zum Block-Bootstrapping angesehen, und es gibt eine zum Thema "Ressourcen zum Erlernen des Block-Bootstraps in der Zeitreihenanalyse", aber Referenzen in den Antworten setzen eine statistische Kompetenz voraus, die ich noch beherrschen muss.

Frank Drost
quelle
1
Wie wäre es mit dieser Einführung ? Es enthält eine Einführung in den Bootstrap und anschließend in den Block-Bootstrap.
David G Williams

Antworten:

7

Das modellfreie Resampling von Zeitreihen erfolgt durch Block-Resampling, auch Block-Bootstrapping genannt, das mithilfe der tsboot-Funktion im Boot-Paket von R implementiert werden kann. Die Idee ist, die Reihe in ungefähr gleich lange Blöcke aufeinanderfolgender Beobachtungen zu unterteilen, den Block durch Ersetzen neu abzutasten und dann die Blöcke zusammenzufügen. Wenn zum Beispiel die Zeitreihe die Länge 200 hat und man 10 Blöcke der Länge 20 verwendet, dann sind die Blöcke die ersten 20 Beobachtungen, die nächsten 20 und so weiter. Ein mögliches Resample ist der vierte Block (Beobachtung 61 bis 80), dann der letzte Block (Beobachtung 181 bis 200), dann der zweite Block (Beobachtung 21 bis 40), dann wieder der vierte Block und so weiter, bis 10 Blöcke vorhanden sind im Resample. Wie macht man Bootstrapping mit Zeitreihendaten?

Wirtschaft
quelle
3
Was Economia über Boostrapping erklärt hat, ist richtig. Beachten Sie jedoch, dass das Bootstrap-Beispiel nicht zum Reduzieren eines Datensatzes auf einen kleineren Datensatz mit derselben zugrunde liegenden Verteilung verwendet wird. (was du gesagt hast war dein Ziel). Bootstrapping wird zum Testen einer Hypothese verwendet, indem das Bootstrap-Beispiel erstellt wird und dann festgestellt wird, wo die Statistik (die getestete) in Bezug auf die empirische Verteilung des Bootstrap-Beispiels liegt. Die Reduktion eines Datensatzes auf einen kleineren Datensatz ist also nicht das Ziel von Bstrapping. Es wird für das Testen von Hypothesen auf modellfreie Weise verwendet.
mlofton