Zwei Möglichkeiten zur Verwendung von Bootstrap zum Schätzen des Konfidenzintervalls von Koeffizienten in der Regression

21

Ich wende ein lineares Modell auf meine Daten an:

yich=β0+β1xich+ϵich,ϵichN(0,σ2).

Ich möchte das Konfidenzintervall (CI) der Koeffizienten ( , ) mit der Bootstrap-Methode schätzen . Es gibt zwei Möglichkeiten, wie ich die Bootstrap-Methode anwenden kann: β 1β0β1

  1. Gepaarten Antwort-Prädiktor abtasten: Stichprobenweise Paare von und lineare Regression auf jeden Lauf anwenden. Nach Läufen erhalten wir eine Sammlung von geschätzten Koeffizienten . Schließlich berechnen Sie das Quantil von . m ^ β j , j = 1 , . . . m ^ β jyich-xichmβj^,j=1,...mβj^

  2. Beispielfehler: Wenden Sie zunächst eine lineare Regression auf die ursprünglich beobachteten Daten an. Aus diesem Modell erhalten wir und den Fehler . Anschließend den Fehler zufällig erneut abtasten und die neuen Daten mit und berechnen. . Wenden Sie erneut die lineare Regression an. Nach Läufen erhalten wir eine Sammlung von geschätzten Koeffizienten . Schließlich berechnen Sie das Quantil von .βO^ϵichϵichβO^yich=βO^xich+ϵichmβj^,j=1,...,mβj^

Meine Fragen sind:

  • Wie unterscheiden sich diese beiden Methoden?
  • Unter welcher Annahme liefern diese beiden Methoden das gleiche Ergebnis?
Tiantianchen
quelle
7
Ich persönlich würde keinen der beiden als Standardansätze verwenden, sondern stattdessen das grundlegende Bootstrap-Konfidenzintervall empfehlen. Siehe p. 8 von www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. Ich habe viele Simulationen für das binäre Logistikmodell durchgeführt und festgestellt, dass die Konfidenzintervallabdeckung mit dem Basis-Bootstrap besser ist als mit dem Perzentil- oder BCa-Bootstrap.
Frank Harrell
1
@FrankHarrell um klar zu sein, mit "basic" meinen Sie den nicht-parametrischen Bootstrap?
Ndoogan
3
(1) ist das nichtparametrische Bootstrap-Perzentil-Konfidenzintervall, nicht das Basis-Bootstrap. Beachten Sie, dass das Abtasten von der unbedingte Bootstrap ist, der mehr annahmenfrei ist als der bedingte Bootstrap, der Residuen erneut abtastet. (x,y)
Frank Harrell
2
Ich bin wirklich kein Experte, aber soweit ich das verstehe, wird 1) oft als "case-resampling" bezeichnet, während 2) als "residual resampling" oder "fixed- " bezeichnet wird. Die grundlegende Wahl der Methode impliziert nicht die Methode zur Berechnung der Konfidenzintervalle nach dem Eingriff. Ich habe diese Informationen hauptsächlich aus dem Tutorial von John Fox erhalten . Soweit ich weiß, können Sie nach jedem Bootstrap die grundlegenden Bootstrap-CIs berechnen (z . B. mit in ). Oder vermisse ich hier etwas? xboot.ci(my.boot, type="basic")R
COOLSerdash
2
Ja, Sie können Cluster-Bootstrapping durchführen. Dies ist in den Funktionen R rms validateund implementiert calibrate.
Frank Harrell

Antworten:

9

Wenn die Antwort-Prädiktor-Paare per Zufallsstichprobe aus einer Grundgesamtheit ermittelt wurden, ist es sicher, das Resampling-Schema case / random-x / your-first zu verwenden. Wenn Prädiktoren kontrolliert wurden oder die Werte der Prädiktoren vom Experimentator festgelegt wurden, können Sie die Verwendung eines Resampling-Schemas in Betracht ziehen, das auf Residuen, Modellen, festem x und Sekunden basiert.

Wie unterscheiden sich die beiden? Eine Einführung in den Bootstrap mit Anwendungen in R von Davison und Kounen enthält eine Diskussion zu dieser Frage (siehe S.9). Siehe auch den R-Code in diesem Anhang von John Fox , insbesondere die Funktionen boot.huber auf S. 5 für das Zufalls-X-Schema und boot.huber.fixed auf S. 10 für das feste X-Schema. Während in den Vorlesungsskripten von Shalizi die beiden Schemata auf unterschiedliche Datensätze / Probleme angewendet werden, zeigt der Anhang von Fox, wie wenig Unterschied die beiden Schemata oft ausmachen.

Wann kann mit nahezu identischen Ergebnissen gerechnet werden? Eine Situation liegt vor, wenn das Regressionsmodell korrekt spezifiziert ist, z. B. keine nicht modellierte Nichtlinearität vorliegt und die üblichen Regressionsannahmen (z. B. ID-Fehler, keine Ausreißer) erfüllt sind. Siehe Kapitel 21 von Fox 'Buch (zu dem der oben genannte Anhang mit dem R-Code indirekt gehört), insbesondere die Diskussion auf Seite 598 und Übung 21.3. mit dem Titel "Random versus Fixed Resampling in Regression". Zitat aus dem Buch

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be  
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.

Sie werden auch aus dieser Diskussion lernen, warum fixed-x bootstrap implizit davon ausgeht, dass die funktionale Form des Modells korrekt ist (obwohl keine Annahme über die Form der Fehlerverteilung gemacht wird).

Siehe auch Folie 12 dieses Vortrags für Society Of Actuaries in Ireland von Derek Bain. Es enthält auch eine Illustration dessen, was als "dasselbe Ergebnis" betrachtet werden sollte:

The approach of re-sampling cases to generate pseudo data is the more usual form of   
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.

The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are  
equivalent.
Winterschlaf halten
quelle