Größe der Bootstrap-Beispiele

9

Ich lerne Bootstrapping als Mittel zur Schätzung der Varianz einer Stichprobenstatistik. Ich habe einen grundsätzlichen Zweifel.

Zitat aus http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf :

• Wie viele Beobachtungen sollten wir erneut abtasten? Ein guter Vorschlag ist die ursprüngliche Stichprobengröße.

Wie können wir so viele Beobachtungen wie in der Originalprobe erneut abtasten?
Wenn ich eine Stichprobengröße von 100 habe und versuche, die Varianz des Mittelwerts abzuschätzen. Wie kann ich mehrere Bootstrap-Beispiele der Größe 100 aus einer Gesamtstichprobengröße von 100 erhalten? In diesem Fall wäre nur 1 Bootstrap-Beispiel möglich, was dem Original-Beispiel entspricht, oder?

Ich verstehe offensichtlich etwas sehr Grundlegendes falsch. Ich verstehe, dass die Anzahl der idealen Bootstrap-Beispiele immer unendlich ist. Um die Anzahl der für meine Daten erforderlichen Bootstrap-Beispiele zu bestimmen, müsste ich die Konvergenz unter Berücksichtigung meiner erforderlichen Genauigkeit testen.
Aber ich bin wirklich verwirrt darüber, wie groß jedes einzelne Bootstrap-Beispiel sein sollte.

user1265125
quelle
7
Die Spitze von p. 3 und die Abbildungen dort legen klar und deutlich fest, dass das Resampling durch Ersetzen erfolgt.
whuber
Aber wenn meine Bootstrap-Stichprobengröße der Gesamtzahl meiner Beobachtungen entspricht, durch was ersetze ich sie?
user1265125
Vereinfachtes Beispiel - wenn ich also 4,1,3,7,5 als Beispielsatz habe. Wie kann ich mehrere Bootstrap-Beispiele der Größe 5 erstellen? Das einzige Bootstrap-Beispiel der Größe 5 ist 4,1,3,7,5, dh das ursprüngliche Beispielset.
user1265125
1
Oh, warte, ich habe verstanden - "• Um eine Stichprobenverteilung zu simulieren, können wir einfach wiederholte Zufallsstichproben aus dieser" Population "nehmen, die aus vielen Kopien der Stichprobe besteht"
user1265125

Antworten:

16

Der Bootstrap wird durch Stichproben mit Ersatz durchgeführt . Es scheint, dass der Begriff "mit Ersatz" für Sie unklar ist. Wie von whuber festgestellt , ist die Darstellung der Probenahme mit Ersatz auf S. 22 dargestellt. 3 des Papiers, auf das Sie sich beziehen (siehe unten).

Abbildung der Probenahme mit Ersatz

(Quelle: http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )

Die allgemeine Idee der Probenahme mit Ersatz ist, dass jeder Fall mehrfach abgetastet werden kann (grüner Marmor auf dem ersten Bild oben; blaue und violette Murmeln auf dem letzten Bild). Wenn Sie sich diesen Vorgang vorstellen möchten, denken Sie an eine Schüssel mit bunten Murmeln. Angenommen, Sie möchten einige Murmeln aus dieser Schüssel ziehen. Wenn Sie abgetastete ohne Ersatz, dann würden Sie einfach sein , die Murmeln aus der Schüssel nehmen und die abgetasteten diejenigen beiseite zu legen. Wenn Sie mit Ersatzproben probieren, probieren Sie die Murmeln einzeln aus, indem Sie einen einzelnen Marmor aus der Schüssel nehmen, die Farbe in Ihrem Notizbuch notieren und ihn dann zurückgebenin die Schüssel. Bei der Probenahme mit Ersatz kann derselbe Marmor also mehrmals probiert werden.

So bei der Probenahme ohne Ersatz, können Sie probieren , die nur Murmeln aus der Schale mit Marmor, während im Fall des Abtastens mit Ersatz Sie ein beliebige Anzahl von Murmeln probieren können (sogar größer als ) aus der endlichen Bevölkerung. Wenn Sie von Murmeln ohne Ersatz probieren würden, würden Sie genau die gleiche Probe erhalten, jedoch in gemischter Reihenfolge. Wenn Sie von Murmeln mit Ersatz probiert haben , können Sie möglicherweise jedes Mal eine andere Kombination von Murmeln probieren.nnnnnnn

Es gibt Probenahme ohne Ersatz Fälle aus der Population der Größe und Möglichkeiten für Probenahme mit Ersatz. Wenn Sie mehr über die Mathematik dahinter lesen möchten, können Sie die 2.1 überprüfen . Kapitel Kombinatorik der Einführung in die Wahrscheinlichkeit Online-Handbuch von Hossein Pishro-Nik. Es gibt auch ein praktisches Cheatsheet auf der WolframMathWorld- Seite.(nk)kn(n+k1k)

Tim
quelle
0

Wie viele Beobachtungen sollten wir erneut abtasten? Ein guter Vorschlag ist die ursprüngliche Stichprobengröße.

Wenn die ursprüngliche Stichprobengröße zu groß ist und Sie kein Modell für den gesamten Datensatz trainieren möchten / können, ist der "gute Vorschlag" nicht so gut.

PS: Ich wollte dies als Kommentar zur Frage hinzufügen, aber ich darf keinen Kommentar hinzufügen ...

Daruma
quelle
1
Warum möchten Sie diesen Vorschlag hinzufügen? Wenn dies auf Datensätze zurückzuführen ist, die für regelmäßige Rechenarbeiten zu groß sind, ist dies ein relevantes praktisches Problem, das jedoch nicht wirklich auf die hier in Frage gestellte Bootstrapping-Theorie zutrifft. Darüber hinaus ging es darum, die Varianz einer Stichprobenstatistik abzuschätzen. Hat das wirklich etwas mit dem allgemeinen Training eines Modells zu tun? (NB. Um nicht unhöflich zu sein, ich verstehe, dass Sie noch keine Kommentare veröffentlichen können, aber das entbindet Sie nicht davon, eine relevante Antwort zu geben, wenn Sie als solche posten. Sie müssen viel klarer sein ODER Ihre eigene Frage posten.)
IWS