Wie nennt man diese dynamische Auswahlstrategie für die Stichprobengröße?

Stellen Sie sich vor, Sie möchten die Komprimierbarkeit eines großen Dokuments sehr schnell beurteilen. Sie können eine Teilsequenz zufällig auswählen und versuchen, sie zu komprimieren. Dies kann als Vorhersage für die Gesamtkomprimierbarkeit des Dokuments dienen. Aber wie groß sollte Ihre Stichprobe sein?

Wir haben folgende Strategie entwickelt:

Wählen Sie eine beliebige (kleine) Stichprobengröße. Messen Sie die Kompressibilität.
Verdoppeln Sie anschließend die Probengröße und messen Sie die Kompressibilität erneut. Wenn sich nur wenig ändert (z. B. weniger als 10%), schließen Sie, dass Sie die Komprimierbarkeit des Dokuments zuverlässig bestimmt haben. Wenn nicht, verdoppeln Sie die Stichprobengröße erneut und so weiter.

Wir sind uns ziemlich sicher, dass dies keine neue Strategie ist, und wir fragen uns, ob sie mit einer bekannten Strategie von Statistikern zusammenhängt.

("Komprimierung" ist hier nur ein Beispiel. Grundsätzlich interessieren wir uns für eine Metrik, die keine guten mathematischen Eigenschaften kennt, so dass es nicht möglich ist, analytisch zu bestimmen, was eine gute Stichprobengröße sein könnte. Wir haben keine andere Wahl, als zu fallen zurück auf solche Heuristiken.)

sampling model-selection sample-size Daniel Lemire
quelle

Antworten:

Dies wurde als "Progressive Sampling" bezeichnet, z. B. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.86.9168&rep=rep1&type=pdf

CDX
quelle

Die Referenz von CDX lautet: Foster Provost, David Jensen und Tim Oates. 1999. Effiziente progressive Probenahme. In Proceedings der fünften internationalen ACM SIGKDD-Konferenz zu Knowledge Discovery und Data Mining (KDD '99). ACM, New York, NY, USA, 23-32.

Daniel Lemire