Ich habe Probleme zu verstehen, wie Bootstrapping verwendet wird , um Vorhersageintervalle für ein lineares Regressionsmodell zu berechnen . Kann jemand eine schrittweise Vorgehensweise skizzieren? Ich habe über Google gesucht, aber für mich macht nichts wirklich Sinn.
Ich verstehe, wie Bootstrapping zum Berechnen von Konfidenzintervallen für die Modellparameter verwendet wird.
Antworten:
Konfidenzintervalle berücksichtigen die Schätzunsicherheit. Vorhersageintervalle addieren dazu die grundsätzliche Unsicherheit. R
predict.lm
gibt Ihnen das Vorhersageintervall für ein lineares Modell. Von dort aus müssen Sie es nur noch wiederholt auf bootstrapten Samples ausführen.Das Ergebnis von
replicate
ist ein 3-dimensionales Array (n
x3
xn.bs
). Die Dimension der Länge 3 besteht aus dem angepassten Wert für jedes Datenelement und den Unter- / Obergrenzen des Vorhersageintervalls von 95%.Gary King-Methode
Je nachdem , was Sie wollen, gibt es eine coole Methode von König, tomz und Wittenberg . Es ist relativ einfach zu implementieren und vermeidet die Probleme beim Bootstrapping für bestimmte Schätzungen (z
max(Y)
. B. ).Ich zitiere hier aus seiner Definition der fundamentalen Unsicherheit, da es einigermaßen schön ist:
quelle
Bootstrapping setzt keine Kenntnis der Form der zugrunde liegenden übergeordneten Verteilung voraus, aus der die Stichprobe hervorgegangen ist. Herkömmliche klassische statistische Parameterschätzungen basieren auf der Normalitätsannahme. Bootstrap befasst sich mit Nicht-Normalität und ist in der Praxis genauer als die klassischen Methoden.
Bootstrapping ersetzt die rohe Rechenleistung von Computern durch eine strenge theoretische Analyse. Dies ist eine Schätzung für die Stichprobenverteilung eines Datensatzfehlerterms. Das Bootstrapping umfasst Folgendes: Eine bestimmte Anzahl von Neuabtastungen des Datensatzes, die Berechnung des Mittelwerts aus jeder Stichprobe und die Ermittlung des Standardfehlers des Mittelwerts.
Der folgende "R" Code demonstriert das Konzept:
Dieses praktische Beispiel demonstriert die Nützlichkeit von Bootstrapping und schätzt den Standardfehler. Der Standardfehler wird zur Berechnung des Konfidenzintervalls benötigt.
Nehmen wir an, Sie haben einen verzerrten Datensatz "a":
Visualisierung des verdrehten Datensatzes
Führen Sie das Bootstrapping-Verfahren durch:
quelle