Um meine Frage in einen Zusammenhang zu bringen, ich bin Physiker, aber nur begrenzt mit Statistiken vertraut, und was ich darüber gelernt habe, war vor über 30 Jahren.
Ich versuche, etwas über Block-Bootstrapping zu lernen, da diese Technik möglicherweise zur Lösung eines Problems geeignet ist, an dem ich arbeite. Ich kann viele Artikel / Bücher / Informationen zur Mathematik des Block-Bootstrappings finden, aber ich möchte zuerst eine allgemeine Beschreibung des Prozesses des Block-Bootstrappings finden, bevor ich mich auf Themen wie das Verschieben von Block-Bootstrapping, das kreisförmige Block-Bootstrapping und das stationäre Block-Bootstrapping einlasse , Blocklängen, Stichprobengröße usw.
Ich habe korrelierte Daten, 5 Variablen (Spalten) um 10000 Beobachtungen (Zeilen) überabgetastet, die ich auf etwa 100 Datenzeilen reduzieren möchte. Die Daten sind eine Zeitreihe, aber nicht fortlaufend, und möglicherweise befinden sich auch Daten von verschiedenen Orten darin. Dies bedeutet, dass Sie gleichzeitig unterschiedliche Daten haben können (wenn letzteres ein Problem beim Block-Bootstrapping darstellt, kann ich "doppelte" Daten entfernen rechtzeitig). Block-Bootstrapping würde es ermöglichen, die Korrelation der Daten zu replizieren.
Das ultimative Ziel besteht darin, den Datensatz auf ~ 100 Datenzeilen zu reduzieren, sodass sowohl PDF als auch PDF des vollständigen Datensatzes und des reduzierten Datensatzes für alle 5 Variablen gleich sind (innerhalb eines noch zu definierenden minimalen Fehlerbereichs).
Frage: 1) Kann Block Bootstrapping dies tun? 2) Wie wird dies Schritt für Schritt durchgeführt? Ich erwarte nicht, dass irgendjemand den gesamten Prozess hier im Detail schreibt, aber vielleicht hat jemand ein Youtube-Video oder ein "Bootstrapping für Dummies" veröffentlicht, mit dem ich beginnen könnte.
Ich habe mir hier ähnliche Fragen zum Block-Bootstrapping angesehen, und es gibt eine zum Thema "Ressourcen zum Erlernen des Block-Bootstraps in der Zeitreihenanalyse", aber Referenzen in den Antworten setzen eine statistische Kompetenz voraus, die ich noch beherrschen muss.
quelle
Antworten:
Das modellfreie Resampling von Zeitreihen erfolgt durch Block-Resampling, auch Block-Bootstrapping genannt, das mithilfe der tsboot-Funktion im Boot-Paket von R implementiert werden kann. Die Idee ist, die Reihe in ungefähr gleich lange Blöcke aufeinanderfolgender Beobachtungen zu unterteilen, den Block durch Ersetzen neu abzutasten und dann die Blöcke zusammenzufügen. Wenn zum Beispiel die Zeitreihe die Länge 200 hat und man 10 Blöcke der Länge 20 verwendet, dann sind die Blöcke die ersten 20 Beobachtungen, die nächsten 20 und so weiter. Ein mögliches Resample ist der vierte Block (Beobachtung 61 bis 80), dann der letzte Block (Beobachtung 181 bis 200), dann der zweite Block (Beobachtung 21 bis 40), dann wieder der vierte Block und so weiter, bis 10 Blöcke vorhanden sind im Resample. Wie macht man Bootstrapping mit Zeitreihendaten?
quelle