Stimmt es, dass der Perzentil-Bootstrap niemals verwendet werden sollte?

31

In den MIT OpenCourseWare-Hinweisen für 18.05 Introduction to Probability and Statistics, Spring 2014 (derzeit hier verfügbar ) heißt es:

Die Bootstrap-Perzentil-Methode überzeugt durch ihre Einfachheit. Dies hängt jedoch von der Bootstrap-Verteilung von ab, wobei eine bestimmte Stichprobe eine gute Annäherung an die tatsächliche Verteilung von . Rice sagt über die Perzentilmethode: „Obwohl diese direkte Gleichung der Quantile der Bootstrap-Stichprobenverteilung mit Konfidenzgrenzen zunächst ansprechend erscheint, ist ihre Begründung etwas unklar.“ [2] Verwenden Sie kurz gesagt nicht die Bootstrap-Perzentilmethode . Verwenden Sie stattdessen den empirischen Bootstrap (wir haben beide in der Hoffnung erklärt, dass Sie den empirischen Bootstrap nicht mit dem Perzentil-Bootstrap verwechseln werden). $\bar{x}^{*}$ $\bar{x}$

[2] John Rice, Mathematische Statistik und Datenanalyse , 2. Auflage, S. 272

Nach einigem Suchen im Internet ist dies das einzige Zitat, das ich gefunden habe. Es besagt, dass der Perzentil-Bootstrap nicht verwendet werden sollte.

Woran ich mich erinnere, als ich aus dem Text Principles and Theory for Data Mining und Machine Learning von Clarke et al. ist, dass die Hauptbegründung für das Bootstrapping die Tatsache ist, dass wobei die empirische CDF ist. (Ich erinnere mich nicht an Details darüber hinaus.)

\frac{1}{n} \sum_{i = 1}^{n} {\hat{F}}_{n} (x) \overset{p}{\to} F (x)

$\dfrac{1}{n}\sum_{i=1}^{n}\hat{F}_n(x) \overset{p}{\to} F(x)$

{\hat{F}}_{n}

$\hat{F}_n$

Stimmt es, dass die Perzentil-Bootstrap-Methode nicht verwendet werden sollte? Wenn ja, welche Alternativen gibt es, wenn nicht unbedingt bekannt ist (dh nicht genügend Informationen verfügbar sind, um einen parametrischen Bootstrap durchzuführen)? $F$

Aktualisieren

Da eine Klarstellung angefordert wurde, bezieht sich der "empirische Bootstrap" aus diesen MIT-Hinweisen auf das folgende Verfahren: Sie berechnen und mit den Bootstrap-Schätzungen von und die vollständige Stichprobenschätzung von , und das resultierende geschätzte Konfidenzintervall wäre . $\delta_1 = (\hat{\theta}^{*}-\hat{\theta})_{\alpha/2}$ $\delta_2 = (\hat{\theta}^{*}-\hat{\theta})_{1-\alpha/2}$ $\hat{\theta}^{*}$ $\theta$ $\hat{\theta}$ $\theta$ $[\hat{\theta}-\delta_2, \hat{\theta} - \delta_1]$

Im Wesentlichen lautet die Hauptidee: Das empirische Bootstrapping schätzt einen Betrag, der proportional zur Differenz zwischen der Punktschätzung und dem tatsächlichen Parameter ist, dh , und verwendet diese Differenz, um das niedrigere und das niedrigere zu ermitteln obere CI-Grenzen. $\hat{\theta}-\theta$

Der "Perzentil-Bootstrap" bezieht sich auf Folgendes: Verwenden Sie als Konfidenzintervall für . In dieser Situation verwenden wir Bootstrapping, um Schätzungen des interessierenden Parameters zu berechnen und die Perzentile dieser Schätzungen für das Konfidenzintervall zu verwenden. $[\hat{\theta}^*_{\alpha/2}, \hat{\theta}^*_{1-\alpha/2}]$ $\theta$

confidence-interval bootstrap Klarinettist
quelle

2

Ich habe dein Update stark bearbeitet. Bitte überprüfen Sie, ob meine Bearbeitung sinnvoll ist. Ihre Zitate aus Efrons Buch waren verwirrend, weil das, was Efron beschreibt, nicht dem entspricht, was Ihre MIT-Notizen als "empirisches Bootstrap" bezeichnen. Also habe ich nur die Beschreibung dessen hinterlassen, was MIT-Notizen tun. Übrigens, ich bin verwirrt über eine Sache in der Beschreibung des "empirischen Bootstraps": Ganz oben auf Seite 6 steht "Da im 90. Perzentil ..." - Ich ziehe an verstehe das nicht. Aus dem Beispiel geht hervor, dass die linke Seite des CI durch Subtrahieren des 90. Perzentils angegeben wird, dh Ihres .

δ_{.1}^{*}

$\delta_{.1}^*$

δ_{2}

$\delta_2$

Amöbe sagt Reinstate Monica

2

@amoeba Deine Änderungen sind korrekt. Vielen Dank für Ihre Hilfe. Ich denke, dass es einige Probleme mit den MIT-Notizen gibt; Ihre Beschreibung der Schwierigkeiten mit Perzentil-Bootstraps war nicht sehr klar und ihre Argumentation gegen sie ist hauptsächlich ein Aufruf an die Behörde. Ich konnte ihr letztes numerisches Beispiel nicht mit dem Perzentil-Bootstrap vergleichen. Denken Sie nicht, dass sie einige Details so gut durchgearbeitet haben wie wir, während wir diese nützliche Frage angesprochen haben, und daher kann ihr Text einige Mängel aufweisen, wie Sie betonen.

EdM

Wenn ich mir diesen MIT-Hinweis ansehe, sehe ich nicht, wie die Autoren die Konfidenzintervalle in Abschnitt 9 "Die Bootstrap-Perzentil-Methode (sollte nicht verwendet werden)" von [37.4, 42.4] erhalten haben. Es scheint, dass die von ihnen verwendete Stichprobe nicht mit der in Abschnitt 6 übereinstimmt, mit der sie den Vergleich durchführen. Wenn wir die unten auf Seite 5 angegebene Stichprobe für δ ∗ = x ∗ - x nehmen und den Stichprobenmittelwert von 40,3 addieren und die CIs nehmen, ergeben sich die Grenzen von [38,9, 41,9] mit der gleichen Breite von 3 als die Grenzwerte, die sie in Abschnitt 6 von [38.7, 41.7] angeben.

verwechselte

21

Es gibt einige Schwierigkeiten, die allen nichtparametrischen Bootstrapping-Schätzungen von Konfidenzintervallen (CI) gemeinsam sind, einige, die sowohl für das "empirische" Problem (in der boot.ci()Funktion des R- bootPakets als auch in Lit. 1 als "grundlegend" bezeichnet ) problematischer sind. und die "Perzentil" -CI-Schätzungen (wie in Lit. 2 beschrieben ), und einige, die mit Perzentil-CIs verschlimmert werden können.

TL; DR : In einigen Fällen funktionieren die Schätzungen des Perzentil-Bootstrap-CI möglicherweise angemessen. Wenn jedoch bestimmte Annahmen nicht zutreffen, ist das Perzentil-CI möglicherweise die schlechteste Wahl, während das empirische / grundlegende Bootstrap die nächst schlechteste ist. Andere Bootstrap-CI-Schätzungen können mit einer besseren Abdeckung zuverlässiger sein. Alles kann problematisch sein. Wie immer hilft das Betrachten von Diagnoseplots dabei, mögliche Fehler zu vermeiden, die nur durch Akzeptieren der Ausgabe einer Softwareroutine entstehen.

Bootstrap-Setup

Befolgen Sie im Allgemeinen die Terminologie und Argumente von Lit. In 1 haben wir eine Stichprobe von Daten die aus unabhängigen und identisch verteilten Zufallsvariablen die eine kumulative Verteilungsfunktion . Die empirische Verteilungsfunktion (EDF) aus dem Datenabtastwert aufgebaut ist . Wir sind in einer charakteristischen interessiert der Bevölkerung, von einer Statistik geschätzt , dessen Wert in der Probe vorhanden ist . Wir möchten wissen, wie gut schätzt , zum Beispiel die Verteilung von . $y_1, ..., y_n$ $Y_i$ $F$ $\hat F$ $\theta$ $T$ $t$ $T$ $\theta$ $(T - \theta)$

Nichtparametrischer Bootstrap verwendet die Abtastung aus der EDF , um die Abtastung aus nachzuahmen , wobei Abtastungen jeder Größe mit Ersetzung aus dem . Aus den Bootstrap-Beispielen berechnete Werte sind mit "*" gekennzeichnet. Beispielsweise liefert die Statistik die für das Bootstrap-Beispiel j berechnet wurde, einen Wert . $\hat F$ $F$ $R$ $n$ $y_i$ $T$ $T_j^*$

Empirische / grundlegende versus perzentile Bootstrap-CIs

Der empirische / grundlegende Bootstrap verwendet die Verteilung von unter den Bootstrap-Stichproben von , um die Verteilung von innerhalb der von selbst beschriebenen Population abzuschätzen . Die CI-Schätzungen basieren daher auf der Verteilung von , wobei der Wert der Statistik in der ursprünglichen Stichprobe ist. $(T^*-t)$ $R$ $\hat F$ $(T-\theta)$ $F$ $(T^*-t)$ $t$

Dieser Ansatz basiert auf dem Grundprinzip des Bootstrapping ( Lit. 3 ):

Die Grundgesamtheit bezieht sich auf die Stichprobe, ebenso wie die Stichprobe auf die Bootstrap-Stichproben.

Der Perzentil-Bootstrap verwendet stattdessen Quantile der -Werte selbst, um den CI zu bestimmen. Diese Schätzungen können sehr unterschiedlich sein, wenn die Verteilung von Versatz oder eine Verzerrung aufweist . $T_j^*$ $(T-\theta)$

Angenommen, es gibt eine beobachtete Verzerrung so dass: $B$

{\bar{T}}^{*} = t + B,

$\bar T^*=t+B,$

Dabei ist der Mittelwert von . Der gesagt, dass das 5. und 95. Perzentil von als und ausgedrückt wird , wobei der Mittelwert über den Bootstrap-Samples und ist sind jeweils positiv und möglicherweise unterschiedlich, um einen Versatz zuzulassen. Die Schätzungen für das 5. und 95. CI-Perzentil werden direkt angegeben durch: $\bar T^*$ $T_j^*$ $T_j^*$ $\bar T^*-\delta_1$ $\bar T^*+\delta_2$ $\bar T^*$ $\delta_1,\delta_2$

{\bar{T}}^{*} - δ_{1} = t + B - δ_{1}; {\bar{T}}^{*} + δ_{2} = t + B + δ_{2} .

$\bar T^*-\delta_1=t+B-\delta_1; \bar T^*+\delta_2=t+B+\delta_2.$

Die 5. und 95. Perzentil-CI-Schätzungen nach der empirischen / grundlegenden Bootstrap-Methode wären ( Lit. 1 , Gleichung 5.6, Seite 194):

2 t - ({\bar{T}}^{*} + δ_{2}) = t - B - δ_{2}; 2 t - ({\bar{T}}^{*} - δ_{1}) = t - B + δ_{1} .

$2t-(\bar T^*+\delta_2) = t-B-\delta_2; 2t-(\bar T^*-\delta_1) = t-B+\delta_1.$

So Perzentil-basiert CIs sowohl die Vorspannung falsch und die Richtungen der potentiell asymmetrischen Positionen der Vertrauensgrenzen um ein doppelt voreingenommen Zentrum Flip . Die Perzentil-CIs aus dem Bootstrapping repräsentieren in einem solchen Fall nicht die Verteilung von . $(T-\theta)$

Dieses Verhalten wird auf dieser Seite gut veranschaulicht , um eine so negativ verzerrte Statistik zu erstellen, dass die ursprüngliche Stichprobenschätzung auf der Grundlage der empirischen / grundlegenden Methode (die direkt eine geeignete Verzerrungskorrektur umfasst) unter den 95% -Kennzahlen liegt. Die 95% CIs basierend auf der Perzentilmethode, die um ein doppelt negativ vorgespanntes Zentrum angeordnet sind, liegen tatsächlich beide unter der negativ vorgespannten Punktschätzung aus der ursprünglichen Stichprobe!

Sollte der Perzentil-Bootstrap niemals verwendet werden?

Das kann eine Übertreibung oder eine Untertreibung sein, abhängig von Ihrer Perspektive. Wenn Sie minimale Verzerrungen und Verzerrungen dokumentieren können, indem Sie beispielsweise die Verteilung von mit Histogrammen oder Dichtediagrammen visualisieren , sollte der Perzentil-Bootstrap im Wesentlichen dieselbe CI wie die empirische / grundlegende CI liefern. Diese sind wahrscheinlich beide besser als die einfache normale Annäherung an das CI. $(T^*-t)$

Keiner der Ansätze bietet jedoch die Genauigkeit der Abdeckung, die von anderen Bootstrap-Ansätzen bereitgestellt werden kann. Efron erkannte von Anfang an die möglichen Einschränkungen von Perzentil-CIs, sagte jedoch: "Meistens werden wir uns damit zufrieden geben, die unterschiedlichen Erfolgsgrade der Beispiele für sich sprechen zu lassen." ( Ref. 2 , Seite 3)

Nachfolgende Arbeiten, die beispielsweise von DiCiccio und Efron ( Lit. 4 ) zusammengefasst wurden, entwickelten Methoden, die "die Genauigkeit der Standardintervalle um eine Größenordnung verbessern", die durch die empirischen / grundlegenden oder Perzentil-Methoden bereitgestellt werden. Man könnte daher argumentieren, dass weder die empirischen / grundlegenden Methoden noch die Perzentilmethoden angewendet werden sollten, wenn Sie auf die Genauigkeit der Intervalle Wert legen.

In extremen Fällen, z. B. bei der Stichprobe direkt aus einer logarithmischen Normalverteilung ohne Transformation, sind möglicherweise keine Bootstrap-CI-Schätzungen zuverlässig, wie Frank Harrell festgestellt hat .

Was schränkt die Zuverlässigkeit dieser und anderer Bootstrap-CIs ein?

Verschiedene Probleme können dazu führen, dass gebootete CIs unzuverlässig werden. Einige gelten für alle Ansätze, andere können durch andere Ansätze als die empirischen / grundlegenden Methoden oder die Perzentilmethode gemildert werden.

Die erste, allgemeine Frage ist, wie gut die empirische Verteilung die Bevölkerungsverteilung . Ist dies nicht der Fall, ist keine Bootstrapping-Methode zuverlässig. Insbesondere Bootstrapping zur Bestimmung von Dingen, die den Extremwerten einer Verteilung nahe kommen, kann unzuverlässig sein. Dieses Problem wird an anderer Stelle auf dieser Site behandelt, beispielsweise hier und hier . Die wenigen diskreten Werte, die in den Endpunkten von für eine bestimmte Stichprobe verfügbar sind, repräsentieren die Endpunkte eines kontinuierlichen möglicherweise nicht sehr gut. Ein extremer, aber anschaulicher Fall ist der Versuch, mithilfe von Bootstrapping die maximale Ordnungsstatistik einer Zufallsstichprobe aus einer einheitlichen zu schätzen. $\hat F$ $F$ $\hat F$ $F$ $\;\mathcal{U}[0,\theta]$ Verteilung, wie hier schön erklärt . Beachten Sie, dass 95% oder 99% der CI im Bootstrap-Modus selbst am Ende einer Verteilung stehen und daher insbesondere bei kleinen Stichprobengrößen unter einem solchen Problem leiden können.

Zweitens gibt es keine Garantie dafür , dass von einer beliebigen Menge Abtasten die gleiche Verteilung haben , wie es von der Probenahme . Diese Annahme liegt jedoch dem Grundprinzip des Bootstrapping zugrunde. Mengen mit dieser wünschenswerten Eigenschaft werden als zentral bezeichnet . Wie AdamO erklärt : $\hat F$ $F$

Das heißt, wenn sich der zugrunde liegende Parameter ändert, wird die Form der Verteilung nur um eine Konstante verschoben, und die Skala ändert sich nicht unbedingt. Dies ist eine starke Annahme!

Wenn beispielsweise eine Verzerrung vorliegt, ist es wichtig zu wissen, dass das Abtasten von um dasselbe ist wie das Abtasten von um . Und dies ist ein besonderes Problem bei der nichtparametrischen Abtastung; als Ref. 1 stellt es auf Seite 33: $F$ $\theta$ $\hat F$ $t$

Bei nichtparametrischen Problemen ist die Situation komplizierter. Es ist jetzt unwahrscheinlich (aber nicht unbedingt unmöglich), dass jede Menge genau entscheidend sein kann.

Das Beste, was normalerweise möglich ist, ist eine Annäherung. Dieses Problem kann jedoch häufig angemessen angegangen werden. Es ist möglich, abzuschätzen, wie weit eine Stichprobenmenge vom Drehpunkt entfernt ist, beispielsweise mit Pivot-Plots, wie von Canty et al . Empfohlen . Diese können anzeigen, wie Verteilungen von Bootstrap-Schätzungen mit variieren , oder wie gut eine Transformation eine Menge liefert , die von entscheidender Bedeutung ist. Methoden für verbesserte Bootstrap-CIs können versuchen, eine Transformation so zu finden, dass für die Schätzung von CIs in der transformierten Skala näher am Dreh- und Angelpunkt liegt, und dann zur ursprünglichen Skala zurücktransformieren. $(T^*-t)$ $t$ $h$ $(h(T^*)-h(t))$ $h$ $(h(T^*)-h(t))$

Die boot.ci()Funktion bietet studentisierte Bootstrap-CIs ( von DiCiccio und Efron als "Bootstrap- t " bezeichnet ) und CIs (Bias korrigiert und beschleunigt, wobei die "Beschleunigung" den behandelt), die "genau zweiter Ordnung" sind, die Differenz zwischen den Die gewünschte und erreichte Abdeckung (z. B. 95% CI) liegt in der Größenordnung von , verglichen mit nur der Genauigkeit erster Ordnung (Größenordnung von ) für die empirische / grundlegende Methode und die Perzentilmethode ( Ref. 1 , S. 212-3; Ref. 4 ). Diese Methoden erfordern jedoch die Verfolgung der Varianzen in jedem der bootstrapped Samples, nicht nur der einzelnen Werte von $BC_a$ $\alpha$ $n^{-1}$ $n^{-0.5}$ $T_j^*$ von diesen einfacheren Methoden verwendet.

In extremen Fällen muss möglicherweise auf das Bootstrapping innerhalb der Bootstrap-Samples selbst zurückgegriffen werden, um eine angemessene Anpassung der Konfidenzintervalle zu gewährleisten. Dieser "doppelte Bootstrap" ist in Abschnitt 5.6 von Lit. 1 , mit anderen Kapiteln in diesem Buch, die Wege vorschlagen, um seine extremen Rechenanforderungen zu minimieren.

EdM
quelle

1

Ich verstehe nicht wirklich, warum Sie sagen, dass "empirisches Bootstrap" für Abweichungen von der Bevölkerungsverteilung "viel weniger empfindlich" wäre. Verwenden der Perzentil-Bootstrap und dieser "empirische Bootstrap" nicht genau dieselben Quantile der Bootstrap-Verteilung? Ich dachte, der einzige Unterschied ist, dass, wenn die Bootstrap-Verteilung um den Stichprobenmittelwert asymmetrisch ist, die Intervalle dieser beiden Ansätze vertauscht werden. Wie hier beschrieben: en.wikipedia.org/wiki/… ("Basic" vs "Perzentil").

Amöbe sagt Reinstate Monica

1

@amoeba Sie unterscheiden sich darin, wie sie mit Abweichungen in den Bootstrap-Schätzungen umgehen, und nicht nur darin, die Intervalle zu kippen. Diese Antwort erfordert mehr Arbeit, um Probleme des empirischen und des Perzentil-Bootstrapping von Problemen im Zusammenhang mit Verteilungsschwänzen zu trennen, die ich hier etwas verwechselt habe und die ich hoffentlich in ein paar Tagen klären werde.

EdM

1

Ich stimme dieser Antwort nicht zu, weil auf der Grundlage der angegebenen Referenzen und der (sehr vernünftigen) Begründung, dass " der Perzentil-Bootstrap niemals verwendet werden sollte ", einfach eine Überbewertung ist, nicht "ein bisschen". Ja, wenn wir können, sollten wir eine Art vorspannungskorrigiertes Bootstrap-Verfahren verwenden, aber nein, verwenden Sie besser Perzentil-Bootstrap, um ineffiziente CI-Schätzungen zu erhalten, anstatt sinnlos 2SE um den Mittelwert herumzuhalten und zu glauben, wir hätten Amerika entdeckt. (Ich stimme weitgehend mit dem überein, was der Hauptteil der Antwort sagt, nur nicht der letzte Absatz, da ich der Meinung bin, dass er die Tür für Fehlinterpretationen offen lässt.)

usεr11852 sagt Reinstate Monic

1

Im Wesentlichen neu organisiert und korrigiert, teilweise als Reaktion auf Kommentare.

EdM

1

@Confounded, was Sie geschrieben haben, entspricht dem Formular, das ich für den empirischen / grundlegenden Bootstrap bereitgestellt habe. Beachten Sie, dass Ihre ist , wo ist die obere Perzentil von Interesse unter den Bootstrap - Stichproben. Also ist . Ich habe für Ihr und als Bootstrap-Mittelwert plus einem Offset ausgedrückt .

U^{*}

$U^*$

{\hat{θ}}_{U}^{*} - \hat{θ}

$\hat\theta^*_U - \hat\theta$

{\hat{θ}}_{U}^{*}

$\hat\theta^*_U$

\hat{θ} - U^{*} = \hat{θ} - ({\hat{θ}}_{U}^{*} - \hat{θ}) = 2 \hat{θ} - {\hat{θ}}_{U}^{*}

$\hat\theta - U^* = \hat\theta -(\hat\theta^*_U - \hat\theta)=2 \hat\theta - \hat\theta^*_U$

t

$t$

\hat{θ}

$\hat\theta$

{\hat{θ}}_{U}^{*}

$\hat\theta^*_U$

{\bar{T}}^{*}

$\bar T^*$

δ_{2}

$\delta_2$

EdM

8

Einige Kommentare zu verschiedenen Begriffen zwischen MIT / Rice und Efrons Buch

Ich denke, dass die Antwort von EdM eine fantastische Arbeit bei der Beantwortung der ursprünglichen Frage des OP in Bezug auf die MIT-Vorlesungsunterlagen leistet. Das OP zitiert jedoch auch das Buch aus Efrom (2016) Computer Age Statistical Inference , das leicht unterschiedliche Definitionen verwendet, was zu Verwirrung führen kann.

Kapitel 11 - Beispiel für die Korrelation der Schülerpunktzahl

In diesem Beispiel wird eine Stichprobe verwendet, für die der interessierende Parameter die Korrelation ist. In der Probe wird als . Efron führt dann nicht parametrische Bootstrap-Replikationen für die Student Score Sample-Korrelation durch und zeichnet das Histogramm der Ergebnisse auf (Seite 186). $\hat \theta = 0.498$ $B = 2000$ $\hat \theta^*$

Standard Intervall Bootstrap

Anschließend definiert er den folgenden Standardintervall-Bootstrap :

\hat{θ} \pm 1,96 \hat{s e}

$\hat \theta \pm 1.96 \hat{se}$

Bei einer Abdeckung von 95% ist der Bootstrap-Standardfehler: , auch als empirische Standardabweichung der Bootstrap-Werte bezeichnet. $\hat{se}$ $se_{boot}$

Empirische Standardabweichung der Bootstrap-Werte:

Das ursprüngliche Beispiel sei und das Bootstrap-Beispiel sei . Jedes Bootstrap-Beispiel enthält eine Bootstrap-Replikation der Statistik von Interesse: $\mathbf{x} = (x_1,x_2,...,x_n)$ $\mathbf{x^*} = (x_1^*,x_2^*,...,x_n^*)$ $b$

{\hat{θ}}^{* b} = s (x^{* b}) zum b = 1, 2, . . ., B

$\hat \theta^{*b} = s(\mathbf{x}^{*b}) \ \text{ for } b = 1,2,...,B$

Die resultierende Bootstrap-Schätzung des Standardfehlers für ist $\hat \theta$

{\hat{s e}}_{b O O t} = {[\sum_{b = 1}^{B} ({\hat{θ}}^{* b} - {\hat{θ}}^{*})^{2} / (B - 1)]}^{1 / 2}

$\hat{se}_{boot} = \left[ \sum_{b=1}^B (\hat \theta^{*b} - \hat \theta^{*})^2 / (B-1)\right]^{1/2}$

{\hat{θ}}^{*} = \frac{\sum_{b = 1}^{B} {\hat{θ}}^{* b}}{B}

$\hat \theta^{*} = \frac{\sum_{b=1}^B \hat \theta^{*b}}{B}$

Diese Definition scheint sich von der in der Antwort von EdM verwendeten zu unterscheiden:

Der empirische / grundlegende Bootstrap verwendet die Verteilung von unter den Bootstrap-Stichproben aus , um die Verteilung von innerhalb der von selbst beschriebenen Population abzuschätzen . $(T^∗−t)$ $R$ $\hat F$ $(T−\theta)$ $F$

Perzentiler Bootstrap

Hier scheinen beide Definitionen übereinzustimmen. Von Efron Seite 186:

Die Perzentilmethode verwendet die Form der Bootstrap-Verteilung, um die Standardintervalle zu verbessern. Nachdem wir Replikationen generiert haben, verwenden wir die Perzentile ihrer Verteilung, um die Perzentilvertrauensgrenzen zu definieren . $B$ $\hat \theta^{*1}, \hat \theta^{*2},...,\hat \theta^{*B}$

In diesem Beispiel sind dies 0,118 bzw. 0,758.

Zitieren von EdM:

Der Perzentil-Bootstrap verwendet stattdessen Quantile der Werte selbst, um den CI zu bestimmen. $T^∗_j$

Vergleich der von Efron definierten Standard- und Perzentilmethode

Nach seinen eigenen Definitionen argumentiert Efron ausführlich, dass die Perzentilmethode eine Verbesserung darstellt. In diesem Beispiel lautet das resultierende CI:

Fazit

Ich würde argumentieren, dass die ursprüngliche Frage des OP an den Definitionen von EdM ausgerichtet ist. Die vom OP vorgenommenen Änderungen zur Verdeutlichung der Definitionen richten sich nach Efrons Buch und stimmen nicht genau mit den Änderungen für Empirical vs Standard Bootstrap CI überein.

Kommentare sind willkommen

Xavier Bourret Sicotte
quelle

2

Vielen Dank für die terminologische Klarstellung. Auf den ersten Blick scheinen die "Standardintervall-Bootstrap" -CIs den "normalen" -CIs von insofern ähnlich zu sein boot.ci(), als sie auf einer normalen Annäherung an die Fehler basieren und gezwungen sind, symmetrisch zur Stichprobenschätzung von . Dies unterscheidet sich von den "empirischen / grundlegenden" CIs, die wie "Perzentil" CIs eine Asymmetrie zulassen. Ich war überrascht über den großen Unterschied zwischen "empirischen / grundlegenden" CIs und "perzentilen" CIs beim Umgang mit Bias. Ich hatte nicht viel darüber nachgedacht, bis ich versuchte, diese Frage zu beantworten.

θ

$\theta$

EdM

Wir haben im Handbuch nachgeschlagen boot.ci(): "In den normalen Intervallen wird auch die Bootstrap-Bias-Korrektur verwendet." Das scheint also ein Unterschied zu dem von Efron beschriebenen "Standard Intervall Bootstrap" zu sein.

EdM

Fair genug - die im Buch beschriebenen normalen Intervalle sind der Basisfall, aus dem er bessere und präzisere Ansätze entwickelt (bis hin zu BC und BCa), sodass es sinnvoll ist, dass sie nicht implementiert werden

Xavier Bourret Sicotte

@EdM und Xavier: Beschreibt Computer Age Statistical Inference die "empirischen / grundlegenden" CIs überhaupt? Wenn ja, wie nennt das Buch sie? Wenn nicht, ist es nicht seltsam?

Amöbe sagt Reinstate Monica

1

@amoeba nicht, dass ich auf den ersten Blick durchschauen kann. Das Buch ist als PDF für den persönlichen Gebrauch erhältlich. Wie ich in meiner Antwort und in dem Buch dargelegt habe, gibt es in Bezug auf die Abdeckung eine bessere Auswahl als "empirische / grundlegende" und "perzentile" CIs. Ich kann also nachvollziehen, warum eine weggelassen werden könnte: ohne Voreingenommenheit und mit symmetrischer CI. Es gibt keinen großen Unterschied zwischen ihnen. Ich kann dem Erfinder des Bootstraps mit Sicherheit nicht vorwerfen, dass er seine ursprüngliche CI-Methode hervorgehoben hat, da sie direkter zu BC und BCa führt als "empirisch / grundlegend".

EdM

5

Ich folge Ihrer Richtlinie: "Suche nach einer Antwort aus glaubwürdigen und / oder offiziellen Quellen."

Der Bootstrap wurde von Brad Efron erfunden. Ich denke, es ist fair zu sagen, dass er ein angesehener Statistiker ist. Tatsache ist, dass er Professor an der Stanford University ist. Ich denke, das macht seine Ansichten glaubwürdig und offiziell.

Ich glaube, dass Computer Age Statistical Inference von Efron und Hastie sein neuestes Buch ist und daher seine aktuellen Ansichten widerspiegeln sollte. Ab p. 204 (11.7, Notizen und Details),

Die Bootstrap-Konfidenzintervalle sind weder genau noch optimal, sondern zielen auf eine breite Anwendbarkeit bei nahezu genauer Genauigkeit ab.

Wenn Sie Kapitel 11, "Bootstrap-Konfidenzintervalle" lesen, werden vier Methoden zum Erstellen von Bootstrap-Konfidenzintervallen beschrieben. Die zweite dieser Methoden ist (11.2) Die Perzentilmethode. Die dritte und die vierte Methode sind Varianten der Perzentilmethode, die versuchen, das zu korrigieren, was Efron und Hastie als Verzerrung im Konfidenzintervall beschreiben und für die sie eine theoretische Erklärung geben.

Abgesehen davon kann ich nicht entscheiden, ob es einen Unterschied zwischen dem, was die MIT-Leute empirisches Bootstrap-CI und Perzentil-CI nennen, gibt. Ich mag einen Hirnfurz haben, aber ich sehe die empirische Methode als die Perzentilmethode, nachdem ich eine feste Menge abgezogen habe. Daran sollte sich nichts ändern. Wahrscheinlich lese ich falsch, aber ich wäre sehr dankbar, wenn jemand erklären könnte, warum ich ihren Text falsch verstehe.

Unabhängig davon scheint die führende Behörde kein Problem mit Perzentil-CIs zu haben. Ich denke auch, dass sein Kommentar Kritik an Bootstrap CI beantwortet, die von einigen Leuten erwähnt wird.

MAJOR ADD ON

Erstens, nachdem Sie sich die Zeit genommen haben, das MIT-Kapitel und die Kommentare zu lesen, ist das Wichtigste zu beachten, dass das, was das MIT als empirischen Bootstrap und als Perzentil-Bootstrap bezeichnet, sich darin unterscheiden wird, was sie als empirisch bezeichnen Der Bootstrap ist das Intervall während der Perzentil-Bootstrap das Konfidenzintervall . Ich würde weiter argumentieren, dass gemäß Efron-Hastie der Perzentil-Bootstrap kanonischer ist. Der Schlüssel zu dem, was MIT den empirischen Bootstrap nennt, ist die Betrachtung der Verteilung von . Aber warum , warum nicht $[\bar{x*}-\delta_{.1},\bar{x*}-\delta_{.9}]$ $[\bar{x*}-\delta_{.9},\bar{x*}-\delta_{.1}]$
$\delta = \bar{x} - \mu$ $\bar{x} - \mu$ $\mu-\bar{x}$ . Genauso vernünftig. Außerdem ist das Delta für den zweiten Satz der verunreinigte Perzentil - Bootstrap! Efron verwendet das Perzentil und ich denke, dass die Verteilung der tatsächlichen Mittel am grundlegendsten sein sollte. Ich möchte hinzufügen, dass Efron zusätzlich zu Efron und Hastie und dem 1979 in einer anderen Antwort erwähnten Papier von Efron 1982 ein Buch über den Bootstrap schrieb. In allen drei Quellen wird der Perzentil-Bootstrap erwähnt, aber ich finde keine Erwähnung dessen, was Die MIT-Leute nennen das empirische Bootstrap. Außerdem bin ich mir ziemlich sicher, dass sie den Perzentil-Bootstrap falsch berechnen. Unten ist ein R-Notizbuch, das ich geschrieben habe.

Anmerkungen zur MIT-Referenz Lassen Sie uns zuerst die MIT-Daten in R übernehmen. Ich habe einen einfachen Job zum Ausschneiden und Einfügen der Bootstrap-Beispiele ausgeführt und in der Datei boot.txt gespeichert.

Hide orig.boot = c (30, 37, 36, 43, 42, 43, 43, 46, 41, 42) boot = read.table (file = "boot.txt") bedeutet = as.numeric (lapply (boot , mean)) # lapply erstellt Listen, keine Vektoren. Ich benutze es IMMER für Datenrahmen. mu = mean (orig.boot) del = sort (means - mu) # Die Unterschiede mu bedeuten del und weiter

Mu - sort (del) ausblenden [3] mu - sort (del) [18] Wir erhalten also die gleiche Antwort, die sie geben. Insbesondere habe ich das gleiche 10. und 90. Perzentil. Ich möchte darauf hinweisen, dass der Bereich vom 10. bis zum 90. Perzentil 3 beträgt. Dies ist derselbe, den das MIT hat.

Was sind meine Mittel?

Verstecken bedeutet sortieren (bedeutet) Ich bekomme verschiedene Mittel. Wichtiger Punkt - mein 10. und 90. bedeuten 38,9 und 41,9. Das würde ich erwarten. Sie unterscheiden sich, weil ich Entfernungen von 40,3 berücksichtige und daher die Subtraktionsreihenfolge umdrehe. Beachten Sie, dass 40,3-38,9 = 1,4 (und 40,3 - 1,6 = 38,7). Das, was sie als Perzentil-Bootstrap bezeichnen, ergibt eine Verteilung, die von den tatsächlichen Mitteln abhängt, die wir erhalten, und nicht von den Unterschieden.

Schlüsselpunkt Der empirische Bootstrap und der Perzentil-Bootstrap unterscheiden sich darin, dass das, was sie den empirischen Bootstrap nennen, das Intervall [x ∗ ¯ − δ.1, x ∗ ¯ − δ.9] [x ∗ ¯ − δ.1, x ∗ ¯ − δ.9], während der Perzentil-Bootstrap das Konfidenzintervall [x ∗ ¯ − δ.9, x ∗ ¯ − δ.1] [x ∗ ¯ − δ.9, x ∗ ¯ − δ.1 hat ]. Normalerweise sollten sie nicht so unterschiedlich sein. Ich habe meine Gedanken, welche ich bevorzugen würde, aber ich bin nicht die endgültige Quelle, die OP anfordert. Gedankenexperiment - sollten die beiden konvergieren, wenn die Stichprobengröße zunimmt. Beachten Sie, dass es 210210 mögliche Proben der Größe 10 gibt. Lassen Sie uns nicht verrückt werden, aber was ist, wenn wir 2000 Proben nehmen - eine Größe, die normalerweise als ausreichend angesehen wird.

Verstecke set.seed (1234) # reproduzierbar boot.2k = matrix (NA, 10,2000) für (i in c (1: 2000)) {boot.2k [, i] = sample (orig.boot, 10, replace = T)} mu2k = sort (apply (boot.2k, 2, mean)) Schauen wir uns mu2k an

Zusammenfassung ausblenden (mu2k) Mittelwert (mu2k) -mu2k [200] Mittelwert (mu2k) - mu2k [1801] und die tatsächlichen Werte-

Verstecke mu2k [200] mu2k [1801] Also ergibt das, was MIT den empirischen Bootstrap nennt, ein 80% -Konfidenzintervall von [, 40,3 -1,87,40,3 +1,64] oder [38,43,41,94] und die schlechte Perzentilverteilung ergibt [38,5, 42]. Dies ist natürlich sinnvoll, da das Gesetz der großen Zahlen in diesem Fall vorschreibt, dass die Verteilung zu einer Normalverteilung konvergieren soll. Dies wird übrigens in Efron und Hastie diskutiert. Die erste Methode zur Berechnung des Bootstrap-Intervalls ist mu = / - 1,96 sd. Wie bereits erwähnt, funktioniert dies bei einer ausreichend großen Stichprobe. Sie geben dann ein Beispiel an, für das n = 2000 nicht groß genug ist, um eine annähernd normale Verteilung der Daten zu erhalten.

Schlussfolgerungen Zunächst möchte ich das Prinzip darlegen, nach dem ich bei der Entscheidung über Namensfragen vorgehe. "Es ist meine Party, die ich weinen kann, wenn ich will." Obwohl Petula Clark sie ursprünglich aussprach, denke ich, dass sie auch Namensstrukturen anwendet. Mit aufrichtiger Ehrerbietung gegenüber MIT denke ich, dass Bradley Efron es verdient, die verschiedenen Bootstrapping-Methoden so zu benennen, wie er es wünscht. Was macht er ? Ich kann in Efron keine Erwähnung von 'empirischem Bootstrap' finden, nur Perzentil. Also werde ich Rice, MIT, et al. Demütig widersprechen. Ich möchte auch darauf hinweisen, dass nach dem Gesetz der großen Zahlen, wie es in der MIT-Vorlesung verwendet wird, empirisch und Perzentil zur gleichen Zahl konvergieren sollten. Nach meinem Geschmack ist Perzentil-Bootstrap intuitiv, gerechtfertigt und das, was der Erfinder von Bootstrap im Sinn hatte. Ich würde hinzufügen, dass ich mir die Zeit genommen habe, dies nur für meine eigene Erbauung zu tun, nicht für irgendetwas anderes. Bestimmtes, Ich habe Efron nicht geschrieben, was OP wahrscheinlich tun sollte. Am liebsten stehe ich korrigiert da.

aginensky
quelle

3

"Ich denke, es ist fair zu sagen, dass er ein angesehener Statistiker ist." - Ja ich würde sagen das ist fair!

Xavier Bourret Sicotte

Ich denke , was OP ruft „empirischer Bootstrap“ ist , was Wikipedia „basic Bootstrap“ hier nennt en.wikipedia.org/wiki/... . Es werden die gleichen Perzentile wie beim "Perzentil-Bootstrap" verwendet, aber irgendwie werden sie umgedreht. Binden Efron und Hastie dies in ihre 4 Methoden ein? Wie nennen sie es?

Amöbe sagt Reinstate Monica

Ich habe versucht, dies in der Frage zu klären, basierend auf dem, was ich in den MIT-Notizen gelesen habe. Lassen Sie mich wissen, wenn etwas unklar ist (oder wenn Sie Zeit haben, die Notizen selbst zu überprüfen, überprüfen Sie meinen Beitrag auf Richtigkeit).

Klarinettist

Bei Xavier könnte man ein Argument dafür anführen, dass meine Efron-Aussage untertrieben war.

Aginensky

1

Ihre Aussage, dass "das, was sie den empirischen Bootstrap nennen, das Intervall ist", wobei ist der Mittelwert der Bootstrap-Schätzungen und in Bezug auf die vom OP verknüpfte MIT-Seite falsch. Der empirische / grundlegende Bootstrap untersucht die Verteilung der Unterschiede der Bootstrap-Schätzungen von der ursprünglichen Stichprobenschätzung , nicht die Verteilung der Bootstrap-Schätzungen selbst. Dies führt, wie meine Antwort erklärt, zu gravierenden Unterschieden bei der CI, wenn Voreingenommenheit besteht. Ein Beispiel finden Sie auf dieser Seite .

[\bar{x *} - δ_{.1}, \bar{x *} - δ_{.9}]

$[\bar{x*}-\delta_{.1},\bar{x*}-\delta_{.9}]$

\bar{x *}

$\bar{x*}$

EdM

2

Wie bereits in früheren Antworten erwähnt, wird der "empirische Bootstrap" in anderen Quellen (einschließlich der R-Funktion boot.ci ) als "grundlegender Bootstrap" bezeichnet , der mit dem "Perzentil-Bootstrap" identisch ist, der bei der Punktschätzung umgedreht wurde. Venables und Ripley schreiben ("Modern Applied Statstics with S", 4. Aufl., Springer, 2002, S. 136):

Bei asymmetrischen Problemen unterscheiden sich die Grund- und Perzentilintervalle erheblich, und die Grundintervalle erscheinen rationaler.

Aus Neugier habe ich umfangreiche MonteCarlo-Simulationen mit zwei asymmetrisch verteilten Schätzern durchgeführt und zu meiner Überraschung genau das Gegenteil festgestellt, nämlich, dass das Perzentilintervall das Basisintervall in Bezug auf die Erfassungswahrscheinlichkeit übertroffen hat. Hier sind meine Ergebnisse mit der Abdeckungswahrscheinlichkeit für jede Stichprobengröße , die mit einer Million unterschiedlicher Stichproben geschätzt wurde (entnommen aus diesem technischen Bericht , S. 26f): $n$

1) Mittelwert einer asymmetrischen Verteilung mit Dichte In diesem Fall sind die klassischen Konfidenzintervalle und werden zum Vergleich angegeben. $f(x)=3x^2$ $\pm t_{1-\alpha/2}\sqrt{s^2/n})$ $\pm z_{1-\alpha/2}\sqrt{s^2/n})$

2) Maximum Likelihood Estimator für in der Exponentialverteilung In diesem Fall werden zwei alternative Konfidenzintervalle zum Vergleich angegeben: mal die log-Likelihood Hessian inverse und mal der Jackknife-Varianzschätzer. $\lambda$ $\pm z_{1-\alpha/2}$ $\pm z_{1-\alpha/2}$

In beiden Anwendungsfällen weist der BCa-Bootstrap die höchste Abdeckungswahrscheinlichkeit unter den Bootstrap-Methoden auf, und der Perzentil-Bootstrap weist eine höhere Abdeckungswahrscheinlichkeit als der Basis- / empirische Bootstrap auf.

cdalitz
quelle

Stimmt es, dass der Perzentil-Bootstrap niemals verwendet werden sollte?

Aktualisieren

Antworten:

Einige Kommentare zu verschiedenen Begriffen zwischen MIT / Rice und Efrons Buch

Kapitel 11 - Beispiel für die Korrelation der Schülerpunktzahl

Standard Intervall Bootstrap

Empirische Standardabweichung der Bootstrap-Werte:

Perzentiler Bootstrap

Vergleich der von Efron definierten Standard- und Perzentilmethode

Fazit

MAJOR ADD ON