Mittelwert der Bootstrap-Stichprobe vs. Statistik der Stichprobe

Angenommen, ich habe ein Beispiel und das Bootstrap-Beispiel aus diesem Beispiel für ein stastitisches (z. B. den Mittelwert). Wie wir alle wissen, schätzt dieses Bootstrap-Beispiel die Stichprobenverteilung des Schätzers der Statistik. $\chi$

Ist der Mittelwert dieser Bootstrap-Stichprobe eine bessere Schätzung der Bevölkerungsstatistik als die Statistik der ursprünglichen Stichprobe ? Unter welchen Bedingungen wäre das der Fall?

estimation bootstrap Amelio Vazquez-Reina
quelle

Der Mittelwert des Bootstrap-Beispiels ist der Mittelwert des Beispiels. In diesem Fall benötigen Sie kein Bootstrap-Beispiel.

Xi'an,

Danke @ Xi'an Ich bin nicht sicher, ob ich folge. Der Mittelwert des Bootstrap-Beispiels kann sich numerisch vom Mittelwert des Beispiels unterscheiden. Versuchen Sie zu sagen, dass die beiden theoretisch immer noch gleichwertig sind? Können Sie an beiden Enden bestätigen?

Amelio Vazquez-Reina

Lassen Sie uns unsere Terminologie klarstellen: "Bootstrap-Beispiel" könnte sich entweder auf ein bestimmtes Beispiel mit Ersetzung aus den Daten beziehen oder auf eine (multivariate) Zufallsvariable, von der ein solches Beispiel als eine Realisierung angesehen würde. Sie haben Recht, dass der Mittelwert einer Realisierung vom Mittelwert der Daten abweichen kann, aber @ Xi'an liefert die relevantere Beobachtung, dass der Mittelwert der Zufallsvariablen (der per Definition die Bootstrap-Schätzung des Populationsmittelwerts ist ) übereinstimmen muss mit dem Mittelwert der Daten.

Whuber

Dann ist Ihre Frage fast identisch mit stats.stackexchange.com/questions/126633/… ; Der einzige Unterschied besteht darin, dass sich die Bootstrap-Beispielrealisierungen überschneiden können, die in der Antwort angegebene Analyse jedoch leicht auf die Bootstrap-Situation übertragen werden kann, mit demselben Ergebnis.

Whuber

Ich sehe die Verbindung @whuber, obwohl man in Bootstrap "Subsets with Replacement" hat und die Realisierungen sich überschneiden können, wie Sie sagten. Ich würde mir vorstellen, dass die Verteilung (z. B. Pseudozufälligkeit), die zum Abrufen der Neuabtastungen im Bootstrap verwendet wird, auch die Abweichung der Schätzung vom Bootstrap-Beispiel beeinflussen kann. Vielleicht ist die Antwort, dass der Unterschied in allen praktischen Angelegenheiten vernachlässigbar ist. Darauf kommt es an: Bedingungen, Feinheiten und der Unterschied in der Praxis.

Amelio Vazquez-Reina

Antworten:

Lassen Sie uns verallgemeinern, um uns auf den Kern der Sache zu konzentrieren. Ich werde die kleinsten Details darlegen, um keine Zweifel zu hinterlassen. Die Analyse erfordert nur Folgendes:

Das arithmetische Mittel einer Menge von Zahlen ist definiert als $z_1, \ldots, z_m$

$\frac{1}{m} (z_{1} + \dots + z_{m}) .$ $\frac{1}{m}\left(z_1 + \cdots + z_m\right).$
Erwartung ist ein linearer Operator. Das heißt, wenn Zufallsvariablen und Zahlen sind, dann ist die Erwartung einer linearen Kombination die lineare Kombination der Erwartungen. $Z_i, i=1,\ldots,m$ $\alpha_i$

$E (α_{1} Z_{1} + \dots + α_{m} Z_{m}) = α_{1} E (Z_{1}) + \dots + α_{m} E (Z_{m}) .$ $\mathbb{E}\left(\alpha_1 Z_1 + \cdots + \alpha_m Z_m\right) = \alpha_1 \mathbb{E}(Z_1) + \cdots + \alpha_m\mathbb{E}(Z_m).$

Sei eine Stichprobe die aus einem Datensatz wird, indem Elemente einheitlich aus mit Ersetzung genommen werden. Lassen das arithmetische Mittel sein . Dies ist eine Zufallsvariable. Dann $B$ $(B_1, \ldots, B_k)$ $x = (x_1, \ldots, x_n)$ $k$ $x$ $m(B)$ $B$

E (m (B)) = E (\frac{1}{k} (B_{1} + \dots + B_{k})) = \frac{1}{k} (E (B_{1}) + \dots + E (B_{k}))

$\mathbb{E}(m(B)) = \mathbb{E}\left(\frac{1}{k}\left(B_1+\cdots+B_k\right)\right) = \frac{1}{k}\left(\mathbb{E}(B_1) + \cdots + \mathbb{E}(B_k)\right)$

folgt aus der Linearität der Erwartung. Da die Elemente von alle auf die gleiche Weise erhalten werden, haben sie alle die gleiche Erwartung, sagen: $B$ $b$

E (B_{1}) = \dots = E (B_{k}) = b .

$\mathbb{E}(B_1) = \cdots = \mathbb{E}(B_k) = b.$

Dies vereinfacht das Vorhergehende

E (m (B)) = \frac{1}{k} (b + b + \dots + b) = \frac{1}{k} (k b) = b .

$\mathbb{E}(m(B)) = \frac{1}{k}\left(b + b + \cdots + b\right) = \frac{1}{k}\left(k b\right) = b.$

Per Definition ist die Erwartung die wahrscheinlichkeitsgewichtete Summe von Werten. Da angenommen wird, dass jeder Wert von die gleiche Chance hat, dass ausgewählt wird, $X$ $1/n$

E (m (B)) = b = E (B_{1}) = \frac{1}{n} x_{1} + \dots + \frac{1}{n} x_{n} = \frac{1}{n} (x_{1} + \dots + x_{n}) = \bar{x},

$\mathbb{E}(m(B)) = b = \mathbb{E}(B_1) = \frac{1}{n}x_1 + \cdots + \frac{1}{n}x_n = \frac{1}{n}\left(x_1 + \cdots + x_n\right) = \bar x,$

das arithmetische Mittel der Daten.

Zur Beantwortung der Frage, ob man das , um das Populationsmittel zu schätzen, ist das Bootstrap-Mittel (was der Fall ist, ) ebenfalls gleich und ist daher identisch mit einem Schätzer des Populationsmittels. $\bar x$ $k=n$ $\bar x$

Für Statistiken, die keine linearen Funktionen der Daten sind, gilt nicht unbedingt dasselbe Ergebnis. Es wäre jedoch falsch, einfach das Bootstrap-Mittel für den Statistikwert in den Daten zu ersetzen: So funktioniert Bootstrapping nicht. Stattdessen erhalten wir durch Vergleichen des Bootstrap-Mittels mit der Datenstatistik Informationen über die Abweichung der Statistik. Hiermit kann die ursprüngliche Statistik angepasst werden, um die Abweichung zu beseitigen. Somit wird die vorspannungskorrigierte Schätzung eine algebraische Kombination der ursprünglichen Statistik und des Bootstrap-Mittels. Weitere Informationen finden Sie unter "BCa" (Bias-korrigierter und beschleunigter Bootstrap) und "ABC". Wikipedia bietet einige Referenzen.

whuber
quelle

Sie meinen, dass die Erwartung des Bootstrap-Mittelwerts gleich dem Datenmittelwert ist, nein? Der Bootstrap-Mittelwert selbst wird nicht durch das (Original-) Datenmuster bestimmt.

Capybaralet

@ user2429920 Der Bootstrap-Mittelwert ist eine Statistik, die von der Stichprobe bestimmt wird. In diesem Sinne ist es identisch mit dem Stichprobenmittelwert. Ihre Erwartung wird im Sinne der Stichprobenverteilung genommen. Ich vermute, Sie verwenden "Erwartung" in einem anderen Sinne als den Vorgang der Berechnung des Bootstrap-Mittels durch wiederholtes Unterabtasten mit Ersetzen.

whuber

Ich denke, der letzte Absatz ist die eigentliche Antwort auf diese Frage, da er allgemein gehalten ist und sich nicht nur auf die Durchschnittsstatistik konzentriert. Ich hatte den gleichen Zweifel wie das OP und war mir der Existenz von BCa nicht bewusst. Obwohl die Demonstration in dieser Antwort mir nicht viel half (ich verwende den Mittelwert nicht als meine Statistik), war der letzte Absatz sehr klar über den Kern der Sache. Ich glaube, dass Xi'ans Antwort auch den Fall anspricht, in dem die Durchschnittsstatistik verwendet wird, also dasselbe Problem. Vielen Dank!

Gabriel

@ Gabriel gute Punkte. Ich habe den Datensatz überprüft: Vor der Bearbeitung wurde bei dieser Frage ursprünglich nur der Mittelwert abgefragt . Aus diesem Grund scheinen sich die Antworten auf diese Statistik zu konzentrieren.

whuber

{\hat{F}}_{n} (x) = \frac{1}{n} \sum_{i = 1}^{n} I_{X_{i} \leq x} X_{i} \overset{iid}{\sim} F (x),

$\hat{F}_n(x) = \frac{1}{n}\sum_{i=1}^n\mathbb{I}_{X_i\le x}\qquad X_i\stackrel{\text{iid}}{\sim}F(x)\,,$

E_{{\hat{F}}_{n}} [X] = \frac{1}{n} \sum_{i = 1}^{n} X_{i} = {\bar{X}}_{n}

$\mathbb{E}_{\hat{F}_n}[X]=\frac{1}{n}\sum_{i=1}^n X_i=\bar{X}_ n$

E_{{\hat{F}}_{n}} [X]

$\mathbb{E}_{\hat{F}_n}[X]$

{\bar{X}}_{n}

$\bar{X}_ n$

Xi'an
quelle

+1 Dies ist die Antwort, die ich ursprünglich schreiben wollte, befürchtete jedoch, dass sie für einige Leser zu undurchsichtig sein könnte. Ich bin trotzdem froh, dass es so elegant präsentiert wird. Ich bin mir jedoch nicht sicher, was Sie in Ihrem letzten Satz meinen, in dem Sie die "Erwartung" der simulierten Näherung anscheinend vom "Grenzwert" unterscheiden: Da die Erwartung konstant ist (sie variiert nicht mit der Simulationsgröße) ), es gibt wirklich keine Grenzen.

whuber

@whuber: Danke für den Kommentar und sorry, dass du meine knappe Antwort genau zur gleichen Zeit wie deine geschrieben hast! Ihre Erklärungen sind für Anfänger in Bootstrap sicherlich besser lesbar. Ich habe den letzten Satz korrigiert, dessen einschränkender Teil das Gesetz der großen Zahlen ist.

Xi'an,

Ihre Verwendung von "mean" in diesem letzten Satz ist ziemlich mehrdeutig! Ich habe es anhand Ihres LLN-Hinweises herausgefunden. Für jede endliche Simulation der Bootstrap-Verteilung erzeugt jede Stichprobe in der Simulation ihren eigenen Mittelwert (es gibt eine Bedeutung von "Mittelwert"). Der Durchschnitt aller dieser Proben in einer bestimmten Simulation einer Simulation erzeugt Mittelwert (es gibt eine andere Bedeutung). Die Simulation Mittelwert konvergiert auf eine Konstante als Simulationsgröße wächst groß, was die Bootstrap ist Mittelwert (eine dritte Bedeutung), und dies entspricht die Probe Mittelwert (die vierte Bedeutung). (Und das schätzt die Bevölkerung bedeutet paradoxerweise gerade fünfte Bedeutung!)

whuber