Mein Verständnis des Bootstrap-Ansatzes basiert auf Wassermans Framework (fast wörtlich):
Sei eine Statistik ( ist die aus der Verteilung gezogene iid-Stichprobe ). Angenommen , wir schätzen möchten - die Varianz der gegeben .X i F V F ( T n ) T n F
Der Bootstrap-Ansatz folgt diesen beiden Schritten:
Schätzen Sie mit , wobei die empirische Verteilungsfunktion ist.V F ( T n ) F
Ungefähre mithilfe der Simulation.
Verstehe ich richtig, dass die Simulation in Schritt 2 durch eine genaue Berechnung ersetzt werden könnte, außer dass sie für praktisch nützliche Werte von ? Hier ist meine Überlegung: entspricht genau einem Integral von . ist eine Schrittfunktion mit einer endlichen Anzahl von Schritten; Wir können also alle Punkte außer den Punkten ignorieren, an denen eine Masse ungleich Null hat. Das Integral ist also genau gleich einer Summe von Termen. Sobald 14 überschreitet, ist eine einfache direkte Berechnung unmöglich.V F T n ( X 1 , . . . , X n ) d F ( X 1 ) d F ( X 2 ) . . . d F ( X n ) F n n d F ( x ) n n n
Wir versuchen jedoch nur, ein Integral zu berechnen. Warum nicht die Brute-Force-Bootstrap-Simulation durch einen der traditionellen numerischen Algorithmen für die Aufnahme von Integralen ersetzen? Würde dies nicht zu einer viel höheren Genauigkeit bei gleicher Rechenzeit führen?
Selbst etwas so Einfaches wie das Aufteilen des Probenraums in Abschnitte (möglicherweise bei kleineren Volumina, bei denen die Probenstatistik schneller variiert) und das Schätzen des Werts der Statistik in jedem Abschnitt unter Verwendung des Mittelpunkts scheint besser zu sein als der blinde Bootstrap.
Was vermisse ich?
Vielleicht funktioniert Bootstrap so gut und so schnell, dass nichts komplizierteres getan werden muss? (Wenn beispielsweise der Genauigkeitsverlust in Schritt 1 so viel größer ist als in Schritt 2, sind Verbesserungen an Schritt 2 eher nutzlos.)
Die beim Bootstrapping am häufigsten verwendete Simulation zur numerischen Berechnung der Varianz könnte prinzipiell durch eine exakte Berechnung oder eine alternative Approximation des Integrals ersetzt werden. Man sollte sich jedoch bewusst sein, dass eine "Brute-Force" -Simulation als Alternative zu anderen numerischen Integrationstechniken tatsächlich eine gute Idee ist. Die Antwort auf die Frage "Würde dies nicht zu einer viel höheren Genauigkeit bei gleicher Rechenzeit führen?" ist nein .
Aber warum ist das so? Die Sache ist, dass die numerische Standardintegration in hohen Dimensionen schlecht mit der Dimension skaliert. Wenn Sie den Raum in reguläre Gitterpunkte unterteilen möchten, z. B. mit Gitterpunkten in jeder Koordinate, erhalten Sie insgesamt Gitterpunkte. Die durch Simulation erreichte Annäherung (bekannt als Monte-Carlo-Integration) kann als eine clevere Auswahl von Funktionsbewertungen angesehen werden. Anstelle zeitaufwändiger Rasterauswertungen bewerten wir nur die Funktion, die wir an ausgewählten Punkten integrieren. Der Fehler ist aufgrund der Zufälligkeit der ausgewählten Punkte zufällig, kann jedoch normalerweise durch den zentralen Grenzwertsatz gesteuert werden.r nr rn
Es gibt andere Methoden wie die Quasi-Monte-Carlo-Integration, von denen ich so gut wie nichts weiß, die clevere Funktionsbewertungen basierend auf Quasi-Zufallszahlen anstelle der Pseudozufallszahlen durchführen, die wir für die normale Monte-Carlo-Integration verwenden.
quelle