Ich habe mich gefragt, wie Bootstrap-CIs (und insbesondere BCa) bei normal verteilten Daten funktionieren. Es scheint eine Menge Arbeit zu geben, um ihre Leistung bei verschiedenen Arten von Verteilungen zu untersuchen, aber bei normal verteilten Daten konnte nichts gefunden werden. Da es naheliegend erscheint, zuerst zu lernen, sind die Papiere wohl einfach zu alt.
Ich habe einige Monte-Carlo-Simulationen mit dem R-Boot-Paket durchgeführt und festgestellt, dass die Bootstrap-CIs mit den exakten CIs übereinstimmen, obwohl sie für kleine Stichproben (N <20) tendenziell etwas liberal sind (kleinere CIs). Für ausreichend große Proben sind sie im Wesentlichen gleich.
Ich frage mich daher, ob es einen guten Grund gibt, nicht immer Bootstrapping zu verwenden. Angesichts der Schwierigkeit, zu beurteilen, ob eine Verteilung normal ist, und der vielen Tücken dahinter, erscheint es vernünftig, Bootstrap-CIs unabhängig von der Verteilung nicht zu entscheiden und zu melden. Ich verstehe die Motivation, nicht-parametrische Tests nicht systematisch zu verwenden, da sie weniger Leistung haben, aber meine Simulationen zeigen, dass dies bei Bootstrap-CIs nicht der Fall ist. Sie sind noch kleiner.
Eine ähnliche Frage, die mich stört, ist, warum man nicht immer den Median als Maß für die zentrale Tendenz verwendet. Es wird häufig empfohlen, nicht normalverteilte Daten damit zu charakterisieren. Da der Median jedoch mit dem Mittelwert für normalverteilte Daten identisch ist, warum dann eine Unterscheidung treffen? Es wäre sehr vorteilhaft, wenn wir die Prozeduren für die Entscheidung, ob eine Verteilung normal ist oder nicht, loswerden könnten.
Ich bin sehr gespannt auf Ihre Gedanken zu diesen Themen und darauf, ob sie bereits diskutiert wurden. Referenzen würden sehr geschätzt.
Vielen Dank!
Pierre
Antworten:
Es ist von Vorteil, die Motivation für das BCa-Intervall und seine Mechanismen (dh die sogenannten "Korrekturfaktoren") zu betrachten. Die BCa-Intervalle sind einer der wichtigsten Aspekte des Bootstraps, da sie der allgemeinere Fall der Bootstrap-Perzentilintervalle sind (dh das Konfidenzintervall, das ausschließlich auf der Bootstrap-Verteilung selbst basiert).
Betrachten Sie insbesondere die Beziehung zwischen den BCa-Intervallen und den Bootstrap-Perzentilintervallen: Wenn die Anpassung für die Beschleunigung (der erste "Korrekturfaktor") und die Schiefe (der zweite "Korrekturfaktor") beide Null sind, werden die BCa-Intervalle auf zurückgesetzt Das typische Bootstrap-Perzentilintervall.
Ich denke nicht, dass es eine gute Idee wäre, IMMER Bootstrapping zu verwenden. Bootstrapping ist eine robuste Technik, die eine Vielzahl von Mechanismen (z. B. Konfidenzintervalle und unterschiedliche Variationen des Bootstraps für verschiedene Arten von Problemen, z. B. den Wild-Bootstrap bei heteroskedastischer Ausprägung) zur Anpassung an verschiedene Probleme (z. B. Nicht-Normalität) aufweist ), aber es beruht auf einer entscheidenden Annahme: Die Daten geben die wahre Bevölkerung genau wieder.
Diese Annahme ist zwar von Natur aus einfach, kann jedoch schwierig zu überprüfen sein, insbesondere im Zusammenhang mit kleinen Stichprobengrößen (es könnte jedoch sein, dass eine kleine Stichprobe die wahre Population genau widerspiegelt!). Wenn das ursprüngliche Beispiel, für das die Bootstrap-Verteilung (und damit alle daraus resultierenden Ergebnisse) nicht ausreichend genau ist, sind Ihre Ergebnisse (und damit Ihre auf diesen Ergebnissen basierende Entscheidung) fehlerhaft.
SCHLUSSFOLGERUNG: Der Bootstrap ist sehr vieldeutig, und Sie sollten vorsichtig sein, bevor Sie ihn anwenden.
quelle