Die Bootstrap-Methode hat in den letzten Jahren eine große Verbreitung gefunden, ich benutze sie auch häufig, insbesondere weil die Gründe dafür sehr intuitiv sind.
Aber das ist eine Sache, die ich nicht verstehe. Warum hat sich Efron dafür entschieden, ein Resample mit Ersetzen durchzuführen, anstatt einfach ein Subsampling durch zufälliges Einschließen oder Ausschließen einzelner Beobachtungen durchzuführen?
Ich denke, dass zufällige Unterabtastung eine sehr gute Qualität hat, die idealerweise die reale Lebenssituation darstellt, in der die Beobachtungen, die wir in unserer Studie haben, eine Teilmenge einer hypothetischen Population sind. Ich sehe keinen Vorteil darin, Beobachtungen während des Resamplings vervielfacht zu haben. In einem realen Kontext ist keine Beobachtung einer anderen ähnlich, insbesondere in komplexen multivariaten Situationen.
quelle
Antworten:
Eine Möglichkeit, diese Wahl zu verstehen, besteht darin, sich die vorliegende Stichprobe als die beste Darstellung der zugrunde liegenden Population vorzustellen. Möglicherweise haben Sie nicht mehr die gesamte Bevölkerung, aus der Sie eine Stichprobe erstellen können, aber Sie haben diese spezielle Darstellung der Bevölkerung. Eine wirklich zufällige erneute Stichprobe aus dieser Darstellung der Grundgesamtheit bedeutet, dass Sie eine Stichprobe mit Ersatz durchführen müssen, da sonst Ihre spätere Stichprobe von den Ergebnissen Ihrer ersten Stichprobe abhängen würde. Das Vorhandensein eines wiederholten Falls in einer bestimmten Bootstrap-Stichprobe repräsentiert Mitglieder der zugrunde liegenden Population, die Merkmale aufweisen, die denen dieses bestimmten wiederholten Falls nahe kommen. Wie Sie vorschlagen, können auch Leave-One-Out- oder Leave-Multiple-Out-Ansätze verwendet werden. Dies ist jedoch eher eine Kreuzvalidierung als ein Bootstrapping.
Ich denke, das bringt den Kommentar von @kjetil_b_halvorsen so ziemlich in andere Worte
quelle