Es wird oft behauptet, dass Bootstrapping eine Schätzung der Abweichung in einem Schätzer liefern kann.
Wenn die Schätzung für eine Statistik ist und die Bootstrap-Repliken sind (mit ), dann ist die Bootstrap-Schätzung der Verzerrung was extrem einfach und mächtig erscheint, bis es beunruhigend ist. ~ t ii∈{1,⋯,N}biast≈1
Ich kann nicht verstehen, wie dies möglich ist, ohne dass ich bereits einen unvoreingenommenen Schätzer für die Statistik habe. Wenn mein Schätzer beispielsweise einfach eine von den Beobachtungen unabhängige Konstante zurückgibt, ist die obige Schätzung der Verzerrung eindeutig ungültig.
Obwohl dieses Beispiel pathologisch ist, kann ich die vernünftigen Annahmen über den Schätzer und die Verteilungen, die garantieren, dass die Bootstrap-Schätzung vernünftig ist, nicht sehen.
Ich habe versucht, die formalen Verweise zu lesen, bin aber weder Statistiker noch Mathematiker, daher wurde nichts geklärt.
Kann jemand eine allgemeine Zusammenfassung darüber geben, wann die Schätzung voraussichtlich gültig sein wird? Wenn Sie gute Referenzen zu diesem Thema kennen, wäre das auch großartig.
Bearbeiten:
Die Glätte des Schätzers wird oft als Voraussetzung für das Funktionieren des Bootstraps angegeben. Könnte es sein, dass man auch eine Art lokale Invertierbarkeit der Transformation benötigt? Die konstante Karte befriedigt das eindeutig nicht.
Antworten:
Das Problem, das Sie beschreiben, ist ein Interpretationsproblem, nicht eines der Gültigkeit. Die Bootstrap-Bias-Schätzung für Ihren konstanten Schätzer ist nicht ungültig, sondern perfekt.
Die Bootstrap-Schätzung der Vorspannung liegt zwischen einem Schätzer und einem Parameter wobei eine unbekannte Verteilung ist und eine Stichprobe von . Die Funktion könnte man prinzipiell berechnen, wenn man die Bevölkerung zur Hand hätte. Einige Male , die wir nehmen die Plug-in - Schätzung von die empirische Verteilung unter Verwendung an der Stelle von . Dies ist vermutlich das, was Sie oben beschrieben haben. In allen Fällen ist die Bootstrap-Schätzung der Verzerrung wobeiθ^=s(x) θ=t(F), F x F t(F) s(x)=t(F^), t(F) F^ F
Die Konstante ist eine perfekte Plug-in-Schätzung für dieselbe Konstante:c Die Population ist und die Stichprobe , die empirische Verteilung, die sich . Wenn Sie auswerten könnten , würden Sie . Wenn Sie die Plug-In-Schätzung berechnen, erhalten Sie auch . Keine Vorurteile, wie Sie es erwarten würden.~ F F t ( F ) = c c t ( F ) = C c∼F ∼F^ F t(F)=c c t(F^)=c c
Ein bekannter Fall, in dem die Plug-In-Schätzung eine Verzerrung aufweist, ist die Schätzung der Varianz, daher die Bessel-Korrektur. Unten zeige ich dies. Die Bootstrap-Bias-Schätzung ist nicht schlecht:t(F^)
Wir könnten stattdessen als Populationsmittelwert und annehmen. In den meisten Fällen sollte eine eindeutige Verzerrung vorliegen: s ( x ) = ct(F) s(x)=c
Auch hier ist die Bootstrap-Schätzung nicht schlecht.
quelle
Sie machen einen Fehler und vielleicht ist das der Grund, warum es verwirrend ist. Du sagst:
Bei Bootstrap geht es nicht darum, wie stark Ihre Methode verzerrt ist, sondern wie stark Ihre Ergebnisse von einer Funktion erzielt werden, wenn Ihre Daten verzerrt sind.
Wenn Sie eine geeignete statistische Methode zur Analyse Ihrer Daten auswählen und alle Annahmen dieser Methode erfüllt sind und Ihre Berechnungen korrekt durchgeführt haben, sollte Ihre statistische Methode die "bestmögliche" Schätzung liefern, die mit Ihren Daten erzielt werden kann .
Die Idee von Bootstrap ist, aus Ihren Daten die gleiche Art und Weise abzutasten, wie Sie Ihre Fälle aus der Population abgetastet haben - es ist also eine Art Replikation Ihrer Abtastung. Auf diese Weise können Sie eine ungefähre Verteilung Ihres Werts (mithilfe von Efrons-Wörtern) erhalten und somit eine Verzerrung Ihrer Schätzung beurteilen.
Ich behaupte jedoch, dass Ihr Beispiel irreführend ist und daher nicht das beste Beispiel für die Erörterung von Bootstrap ist. Da es auf beiden Seiten Missverständnisse gab, lassen Sie mich meine Antwort aktualisieren und formeller schreiben, um meinen Standpunkt zu verdeutlichen.
Die Neigung, dass eine Schätzung des wahren Werts ist, ist definiert als:θ^ θ
woher:
Dabei ist der Schätzer.g(⋅)
Wie Larry Wasserman in seinem Buch "All the Statistics" feststellt :
Ein konstanter Schätzer, der eine konstante Funktion von : ist , erfüllt diese Anforderung nicht, da er unabhängig von Daten ist und eine wachsende Anzahl von Beobachtungen ihn nicht dazu bringen würde, sich dem wahren Wert (außer durch reines Glück oder Haben) sehr solide a priori Annahmen über es, dass ;g ( X ) = & lgr; θ & lgr; & lgr; = θx g(X)=λ θ λ λ=θ
Der konstante Schätzer erfüllt nicht die Grundvoraussetzung, um ein vernünftiger Schätzer zu sein, und daher ist es unmöglich, seinen Bias zu schätzen, da sich nicht annähert, selbst wenn . Es ist unmöglich, dies mit Bootstrap und einer anderen Methode zu tun, daher ist dies mit Bootstrap kein Problem.θn→∞θ^n θ n→∞
quelle
Ich denke, deine Formel ist falsch. Das letzte sollte einen Stern anstelle eines Hutes haben: b i a s t ≈ 1t
Sie möchten die tatsächliche Statistik verwenden, die für die empirische Verteilung ausgewertet wird (dies ist häufig einfach, da die ursprüngliche Stichprobe eine endliche Menge ist), und nicht die Schätzung. In einigen Fällen können diese identisch sein (z. B. ist der empirische Mittelwert derselbe wie der Stichprobenmittelwert), dies wird jedoch im Allgemeinen nicht der Fall sein. Sie gaben einen Fall an, in dem sie unterschiedlich sind, aber ein weniger pathologisches Beispiel ist der übliche unverzerrte Schätzer für die Varianz, der nicht der Populationsvarianz entspricht, wenn er auf eine endliche Verteilung angewendet wird.
Wenn die Statistik für die empirische Verteilung keinen Sinn ergibt (z. B. wenn sie eine kontinuierliche Verteilung voraussetzt), sollten Sie Vanille-Bootstrapping nicht verwenden. Sie können die empirische Verteilung durch eine Schätzung der Kerneldichte (Smooth Bootstrap) ersetzen. Wenn Sie wissen, dass die ursprüngliche Verteilung in einer bestimmten Familie liegt, können Sie die empirische Verteilung durch die höchstwahrscheinliche Schätzung dieser Familie ersetzen (parametrischer Bootstrap).t
TL / DR: Die Bootstrap-Methode ist nicht magisch. Um eine unvoreingenommene Schätzung der Verzerrung zu erhalten, müssen Sie in der Lage sein, den interessierenden Parameter genau auf einer endlichen Verteilung zu berechnen.
quelle
Ich finde es nützlich, über die Bootstrap-Prozeduren in Bezug auf die Funktionen der Distributionen nachzudenken, auf denen sie ausgeführt werden. In dieser Antwort habe ich ein Beispiel für eine andere Bootstrap-Frage gegeben.
Die Schätzung, die Sie gegeben haben, ist das, was es ist - eine Schätzung. Niemand sagt, dass es keine Probleme mit statistischen Schätzungen gibt. Sie erhalten zum Beispiel eine Nicht-Null-Schätzung der Verzerrung für den Stichprobenmittelwert, von der wir alle wissen, dass sie zunächst unbefangen ist. Ein Problem bei diesem Verzerrungsschätzer ist, dass er unter einer Stichprobenvariabilität leidet, wenn der Bootstrap als Monte Carlo implementiert ist, und nicht unter einer vollständigen Aufzählung aller möglichen Teilstichproben (und niemandem, der diesen theoretischen Bootstrap in der Praxis sowieso hat).
Daher ist eine Monte-Carlo-Implementierung des Bootstraps nicht fixierbar, und Sie müssen ein anderes Bootstrap-Schema verwenden. Davison et. al. (1986) haben gezeigt, wie ein anderes Bootstrap-Schema erstellt wird, das die Zufallsziehung einschränkt, um ausgeglichene Stichproben zu erhalten: Wenn Sie Bootstrap-Replikate erstellen , muss jedes der ursprünglichen Elemente genau mal für das Gleichgewicht erster Ordnung verwendet werden. (Das Gleichgewicht zweiter Ordnung, das für die zweiten Momente der Schätzer besser funktioniert, wird von Graham et al. (1990) weiter diskutiert .)BB B
quelle