Bootstrapping einer Stichprobe aus einer endlichen Population

8

Kann mich jemand auf eine theoretische Referenz zum Bootstrapping einer Stichprobe verweisen, die einer Population bekannter Größe entnommen wurde?

Ich bin es gewohnt, Bootstrap zu verwenden, um Konfidenzintervalle einer Stichprobe zu berechnen, wenn die Populationsgröße als viel größer als die Stichprobe angesehen wird (daher sollte eine zufällige Auswahl mit Wiederholung den Stichprobenprozess gut nachahmen).

Angenommen, ich weiß, dass die Bevölkerung 1000 beträgt, und ich habe 800 Stichproben genommen (und nehmen wir an, dass die Stichprobe tatsächlich zufällig ist). Eine zufällige Auswahl mit Wiederholung scheint nicht angemessen zu sein. Wenn ich nach dem Pigeonhole-Prinzip wirklich eine weitere Zufallsstichprobe der Größe 800 nehme, ist garantiert, dass mindestens 600 Werte mit der Originalstichprobe übereinstimmen, was beim herkömmlichen Bootstrap nicht repliziert werden kann (und möglicherweise um ein Vielfaches fehlt).

Irgendwelche Lösungen? Ich dachte an:

  • Abtastung 1000 mit Wiederholung, dann zufällige Auswahl von 800 (scheint ein äquivalenter Ansatz des herkömmlichen Bootstraps zu sein)
  • Probe 600 ohne Wiederholung, als 200 mehr mit allen 800 Proben mit Wiederholung. Dies würde den zuvor beschriebenen Effekt erklären.

Irgendwelche Gedanken darüber, was mit diesen Ansätzen gut und was schlecht ist? Oder irgendein alternativer Ansatz?

Inox
quelle

Antworten:

6

Das Bootstrap-Sampling sollte dem Prozess des Samplings der Daten aus der Grundgesamtheit ähneln. Im Falle einer endlichen Population haben Sie eine Fraktion abgetastetf aus der Bevölkerung der Größe Ndh n=fNFälle. In einem solchen Szenario gibt es zwei Probleme bei der Verwendung von Bootstrap: (1) Wenn Sie einen herkömmlichen Bootstrap verwenden, werden Sie mit Ersatz und nicht ohne Ersatz abtasten. (2) Wenn Sie ohne Ersatz abtastenfn Fälle, dann würden Sie mit Probe kleiner als n. Das erste Szenario ist eine schlechte Idee, da in einem solchen Fall der Bootstrap nicht dem ursprünglichen Stichprobenprozess ähneln würde. Für die Verwendung von Bootstrap im Fall einer endlichen Grundgesamtheit haben Sie drei Alternativen:

  1. Probe ohne Ersatz Muster der Größefnund skalieren Sie dann die Ergebnisse neu. Das Finden des geeigneten Neuskalierungsfaktors kann komplizierter sein als es sich anhört, daher ist dies möglicherweise nicht die beste Alternative.
  2. Erste Probe ohne Ersatz N.- -nFälle aus Ihrer Probe, verketten Sie sie mit der Probe und probieren Sie sie dann ersatzlos aus nFälle daraus. Dies wird als Mirror-Match-Bootstrap bezeichnet .
  3. Erste Probe mit Ersatz N. Fälle aus Ihrer Probe und dann Probe aus ihr nFälle ohne Ersatz . Dies wird als Superpopulation-Bootstrap bezeichnet .

Um mehr über diese Methoden zu erfahren, können Sie die folgenden Ressourcen überprüfen:

Davison, AC & Hinkley, DV (2009). Bootstrap-Methoden und ihre Anwendung. New York, NY: Cambridge University Press.

Sitter, RR (1992). Ein Resampling-Verfahren für komplexe Umfragedaten. Journal of the American Statistical Association, 87 (419), 755-765.

Sitter, RR (1992). Vergleich von drei Bootstrap-Methoden für Umfragedaten. Canadian Journal of Statistics, 20 (2), 135-154.

Tim
quelle
Vielen Dank für die Antwort und die Referenzen. Ich glaube, ich war nicht zu weit von der Antwort entfernt und werde sicher viel von den Referenzen profitieren.
Inox
@Inox ja du warst sehr nah :)
Tim