Kann mich jemand auf eine theoretische Referenz zum Bootstrapping einer Stichprobe verweisen, die einer Population bekannter Größe entnommen wurde?
Ich bin es gewohnt, Bootstrap zu verwenden, um Konfidenzintervalle einer Stichprobe zu berechnen, wenn die Populationsgröße als viel größer als die Stichprobe angesehen wird (daher sollte eine zufällige Auswahl mit Wiederholung den Stichprobenprozess gut nachahmen).
Angenommen, ich weiß, dass die Bevölkerung 1000 beträgt, und ich habe 800 Stichproben genommen (und nehmen wir an, dass die Stichprobe tatsächlich zufällig ist). Eine zufällige Auswahl mit Wiederholung scheint nicht angemessen zu sein. Wenn ich nach dem Pigeonhole-Prinzip wirklich eine weitere Zufallsstichprobe der Größe 800 nehme, ist garantiert, dass mindestens 600 Werte mit der Originalstichprobe übereinstimmen, was beim herkömmlichen Bootstrap nicht repliziert werden kann (und möglicherweise um ein Vielfaches fehlt).
Irgendwelche Lösungen? Ich dachte an:
- Abtastung 1000 mit Wiederholung, dann zufällige Auswahl von 800 (scheint ein äquivalenter Ansatz des herkömmlichen Bootstraps zu sein)
- Probe 600 ohne Wiederholung, als 200 mehr mit allen 800 Proben mit Wiederholung. Dies würde den zuvor beschriebenen Effekt erklären.
Irgendwelche Gedanken darüber, was mit diesen Ansätzen gut und was schlecht ist? Oder irgendein alternativer Ansatz?