Ich wende ein lineares Modell auf meine Daten an:
Ich möchte das Konfidenzintervall (CI) der Koeffizienten ( , ) mit der Bootstrap-Methode schätzen . Es gibt zwei Möglichkeiten, wie ich die Bootstrap-Methode anwenden kann: β 1
Gepaarten Antwort-Prädiktor abtasten: Stichprobenweise Paare von und lineare Regression auf jeden Lauf anwenden. Nach Läufen erhalten wir eine Sammlung von geschätzten Koeffizienten . Schließlich berechnen Sie das Quantil von . m ^ β j , j = 1 , . . . m ^ β j
Beispielfehler: Wenden Sie zunächst eine lineare Regression auf die ursprünglich beobachteten Daten an. Aus diesem Modell erhalten wir und den Fehler . Anschließend den Fehler zufällig erneut abtasten und die neuen Daten mit und berechnen. . Wenden Sie erneut die lineare Regression an. Nach Läufen erhalten wir eine Sammlung von geschätzten Koeffizienten . Schließlich berechnen Sie das Quantil von .
Meine Fragen sind:
- Wie unterscheiden sich diese beiden Methoden?
- Unter welcher Annahme liefern diese beiden Methoden das gleiche Ergebnis?
quelle
boot.ci(my.boot, type="basic")
R
rms
validate
und implementiertcalibrate
.Antworten:
Wenn die Antwort-Prädiktor-Paare per Zufallsstichprobe aus einer Grundgesamtheit ermittelt wurden, ist es sicher, das Resampling-Schema case / random-x / your-first zu verwenden. Wenn Prädiktoren kontrolliert wurden oder die Werte der Prädiktoren vom Experimentator festgelegt wurden, können Sie die Verwendung eines Resampling-Schemas in Betracht ziehen, das auf Residuen, Modellen, festem x und Sekunden basiert.
Wie unterscheiden sich die beiden? Eine Einführung in den Bootstrap mit Anwendungen in R von Davison und Kounen enthält eine Diskussion zu dieser Frage (siehe S.9). Siehe auch den R-Code in diesem Anhang von John Fox , insbesondere die Funktionen boot.huber auf S. 5 für das Zufalls-X-Schema und boot.huber.fixed auf S. 10 für das feste X-Schema. Während in den Vorlesungsskripten von Shalizi die beiden Schemata auf unterschiedliche Datensätze / Probleme angewendet werden, zeigt der Anhang von Fox, wie wenig Unterschied die beiden Schemata oft ausmachen.
Wann kann mit nahezu identischen Ergebnissen gerechnet werden? Eine Situation liegt vor, wenn das Regressionsmodell korrekt spezifiziert ist, z. B. keine nicht modellierte Nichtlinearität vorliegt und die üblichen Regressionsannahmen (z. B. ID-Fehler, keine Ausreißer) erfüllt sind. Siehe Kapitel 21 von Fox 'Buch (zu dem der oben genannte Anhang mit dem R-Code indirekt gehört), insbesondere die Diskussion auf Seite 598 und Übung 21.3. mit dem Titel "Random versus Fixed Resampling in Regression". Zitat aus dem Buch
Sie werden auch aus dieser Diskussion lernen, warum fixed-x bootstrap implizit davon ausgeht, dass die funktionale Form des Modells korrekt ist (obwohl keine Annahme über die Form der Fehlerverteilung gemacht wird).
Siehe auch Folie 12 dieses Vortrags für Society Of Actuaries in Ireland von Derek Bain. Es enthält auch eine Illustration dessen, was als "dasselbe Ergebnis" betrachtet werden sollte:
quelle