Diese Frage wurde durch etwas ausgelöst, das ich in diesem Statistiklehrbuch für Hochschulabsolventen gelesen und (unabhängig) während dieser Präsentation auf einem statistischen Seminar gehört habe. In beiden Fällen lautete die Aussage wie folgt: "Da die Stichprobengröße ziemlich klein ist, haben wir beschlossen, die Schätzung über Bootstrap anstelle (oder zusammen mit) dieser parametrischen Methode durchzuführen ."
Sie haben nicht auf die Details eingegangen, aber wahrscheinlich lautete die Begründung wie folgt: Methode geht davon aus, dass die Daten einer bestimmten parametrischen Verteilung D folgen . In Wirklichkeit ist die Verteilung nicht genau D , aber es ist in Ordnung, solange die Stichprobengröße groß genug ist. Da in diesem Fall die Stichprobengröße zu klein ist, wechseln wir zu dem (nicht parametrischen) Bootstrap, bei dem keine Verteilungsannahmen getroffen werden. Problem gelöst!
Meiner Meinung nach ist das nicht der Zweck von Bootstrap. Das sehe ich so: Bootstrap kann einen Vorteil bringen, wenn es mehr oder weniger offensichtlich ist, dass es genügend Daten gibt, aber es gibt keine geschlossene Lösung, um Standardfehler, p-Werte und ähnliche Statistiken zu erhalten. Ein klassisches Beispiel ist die Ermittlung eines CI für den Korrelationskoeffizienten bei einer Stichprobe aus einer bivariaten Normalverteilung: Die Lösung in geschlossener Form existiert, ist jedoch so verschlungen, dass das Bootstrapping einfacher ist. Nichts impliziert jedoch, dass Bootstrap einem irgendwie helfen kann, mit einer kleinen Stichprobengröße davonzukommen.
Ist meine Wahrnehmung richtig?
Wenn Sie diese Frage interessant finden, gibt es eine andere, spezifischere Bootstrap-Frage von mir:
Bootstrap: das Problem der Überanpassung
PS Ich kann nicht anders, als ein ungeheures Beispiel für den "Bootstrap-Ansatz" zu nennen. Ich verrate den Namen des Autors nicht, aber er ist einer der „Quants“ der älteren Generation, die 2004 ein Buch über quantitative Finanzen geschrieben haben. Das Beispiel stammt von dort.
Stellen Sie sich das folgende Problem vor: Nehmen Sie an, Sie haben 4 Assets und 120 monatliche Ertragsbeobachtungen für jedes. Ziel ist es, das gemeinsame 4-dimensionale cdf der jährlichen Renditen zu erstellen. Selbst für einen einzelnen Vermögenswert scheint die Aufgabe mit nur 10 jährlichen Beobachtungen kaum erreichbar zu sein, geschweige denn mit der Schätzung von 4-dimensionalem cdf. Aber keine Sorge, der „Bootstrap“ hilft Ihnen dabei: Nehmen Sie alle verfügbaren vierdimensionalen Beobachtungen, nehmen Sie das Ersetzen von 12 erneut vor und fügen Sie sie zusammen, um einen einzigen vierdimensionalen „Bootstrap“ -Vektor der jährlichen Renditen zu erstellen. Wiederholen Sie das 1000-mal und, siehe da, Sie haben sich ein „Bootstrap-Beispiel“ von 1000 jährlichen Erträgen besorgt. Verwenden Sie dies als Beispiel für eine CDF-Schätzung der Größe 1000 oder eine andere Folgerung, die aus einer 1000-jährigen Geschichte gezogen werden kann.
quelle
Antworten:
Meine Ergebnisse für einen Lauf sind:
quelle
boot
Paket verwendet und es alle möglichen Intervalle bereitstellen lassen: das normale Annäherungsintervall erster Ordnung, das grundlegende Bootstrap-Intervall, das studentisierte Bootstrap-Intervall, das Bootstrap-Perzentil-Intervall (das Ihr Code bereits bereitstellt) und das angepasste Bootstrap-Perzentil (BCa). Intervall. Die Ergebnisse waren im Wesentlichen alle gleich (Ablehnungsraten zwischen 0,16 und 0,17), mit Ausnahme des studentisierten Intervalls, das eine nominelle Ablehnungsrate (0,05) aufwies (was sinnvoll ist, da es eher dem Standard-t-Test entspricht).10,000 \times 10,000
Iterationen ausführen zu lassen (die noch ein paar Minuten dauerten) und Dinge überprüfen zu können. Und Ihr Beispiel zeigt deutlich, dass der Bootstrap mit kleinen Samples ziemlich schlecht abschneiden kann, auch wenn die Dinge "nett" sind (dh die Daten sind tatsächlich normal).Wenn Sie eine kleine Stichprobengröße haben (was "klein" ist, scheint als Hintergrundbeleuchtung von einer zugrunde liegenden Regel in jedem Forschungsbereich abzuhängen), wird kein Bootstrap die Magie auslösen. Angenommen, eine Datenbank enthält drei Beobachtungen für jede der beiden untersuchten Variablen, ist kein Rückschluss sinnvoll. Nach meiner Erfahrung kann nicht-parametrisches Bootstrap (1.000 oder 10.000 Replikationen) den T-Test gut ersetzen, wenn die Probenverteilungen (jeweils mindestens 10-15 Beobachtungen) verzerrt sind und daher die Voraussetzungen für den üblichen T-Test nicht erfüllt sind. Unabhängig von der Anzahl der Beobachtungen kann außerdem ein nicht-parametrischer Bootstrap eine obligatorische Wahl sein, wenn die Daten positiv verzerrt sind, wie dies für die Kosten des Gesundheitswesens immer der Fall ist.
quelle
Andere Antworten kritisieren die Leistung von Bootstrap-Konfidenzintervallen , nicht das Bootstrap selbst. Das ist ein anderes Problem.
Wenn Ihr Kontext die Regelmäßigkeitsbedingungen für die Konvergenz der Bootstrap-Verteilung erfüllt (Konvergenz in Bezug auf die Anzahl der Bootstrap-Beispiele), funktioniert die Methode, wenn Sie ein ausreichend großes Bootstrap-Beispiel verwenden.
Falls Sie wirklich Probleme mit der Verwendung von nichtparametrischem Bootstrap haben möchten, gibt es zwei Probleme:
(1) Probleme mit dem Resampling.
Eines der Probleme beim Bootstrap für kleine oder große Samples ist der Resampling-Schritt. Es ist nicht immer möglich, eine Neuabtastung durchzuführen, während die Struktur (Abhängigkeit, zeitlich, ...) der Probe erhalten bleibt. Ein Beispiel hierfür ist ein überlagerter Prozess .
Wie würden Sie resampling unter Beibehaltung der unbekannten Abhängigkeitsstruktur ?
(2) Enge Bootstrap-Samples und Bootstrap-Konfidenzintervalle für kleine Samples .
In kleinen Stichproben können das Minimum und das Maximum der Schätzer für jede Teilstichprobe ein enges Intervall definieren. In einigen Modellen sind dann der rechte und der linke Endpunkt aller Konfidenzintervalle sehr eng (was angesichts der kleinen Stichprobe nicht intuitiv ist!).
quelle
Bootstrap funktioniert gut in kleinen Probengrößen durch die Richtigkeit der Tests zu gewährleisten (zB , dass das nominale 0,05 Signifikanzniveau nahe an die tatsächlichen Größe des Tests), aber die Bootstrap ist nicht Sie auf magische Weise gewährt zusätzliche Leistung. Wenn Sie eine kleine Stichprobe haben, haben Sie wenig Kraft, Ende der Geschichte.
Parametrische (lineare Modelle) und semiparametrische (GEE) Regressionen neigen dazu, schlechte Eigenschaften bei kleinen Stichproben zu haben ... erstere als Folge einer großen Abhängigkeit von parametrischen Annahmen, letztere aufgrund der Vergrößerung robuster Standardfehlerschätzungen bei kleinen Stichproben. Bootstrapping (und andere Resampling-basierte Tests) funktionieren unter diesen Umständen sehr gut .
Zur Vorhersage bietet Bootstrapping bessere (ehrlichere) Schätzungen der internen Gültigkeit als die Validierung aufgeteilter Stichproben.
quelle