Es gibt einen Webservice, über den ich Informationen zu einem zufälligen Artikel anfordern kann. Für jede Anfrage hat jeder Artikel die gleiche Chance, zurückgeschickt zu werden.
Ich kann weiterhin Artikel anfordern und die Anzahl der Duplikate und Unikate aufzeichnen. Wie kann ich diese Daten verwenden, um die Gesamtzahl der Artikel zu schätzen?
Antworten:
Dies ist im Wesentlichen eine Variante des Problems des Gutscheinsammlers.
Wenn insgesamtn Elemente vorhanden sind und Sie eine Stichprobengröße s mit Ersatz genommen haben, ist die Wahrscheinlichkeit, u eindeutige Elemente identifiziert zu haben ,
Alles was Sie jetzt brauchen , ist eine vorherige Verteilung fürPr(N=n) , gelten Bayes - Theorem und eine hintere Verteilung erhalten N .
quelle
Ich habe bereits einen Vorschlag gemacht, der auf Stirling-Zahlen der zweiten Art und Bayes'schen Methoden basiert.
Für diejenigen, die Stirling-Zahlen zu groß oder Bayes'sche Methoden zu schwierig finden, könnte eine gröbere Methode sein
und mit numerischen Methoden zurückrechnen.
Zum Beispiel mit GaBorgulya des am Beispiel und ein beobachtetes U = 265 , dies könnte uns eine Schätzung geben n ≈ 1180 für die Bevölkerung.s=300 U=265 n^≈1180
Wenn das die Population gewesen wäre, hätte es uns eine Varianz für von ungefähr 25 gegeben, und zwei willkürliche Standardabweichungen auf beiden Seiten von 265 wären ungefähr 255 und 275 (wie gesagt, dies ist eine grobe Methode). 255 hätte uns eine Schätzung für n ungefähr 895 gegeben, während 275 ungefähr 1692 gegeben hätte. Die 1000 des Beispiels liegt bequem innerhalb dieses Intervalls.U n
quelle
Sie können die Capture-Recapture-Methode verwenden , die auch als Rcapture R-Paket implementiert ist .
Hier ist ein Beispiel, das in R codiert ist. Nehmen wir an, dass der Webdienst N = 1000 Elemente enthält. Wir werden n = 300 Anfragen stellen. Erzeugen Sie eine Zufallsstichprobe, wobei die Elemente von 1 bis k nummeriert werden, wobei k die Anzahl der verschiedenen Elemente ist, die wir gesehen haben.
Das Ergebnis der Simulation ist
Unter den 300 Anfragen gab es also 4 Artikel, die dreimal gesehen wurden, 27 Artikel, die zweimal gesehen wurden und 234 Artikel, die nur einmal gesehen wurden.
Schätzen Sie nun N aus dieser Stichprobe:
Das Ergebnis:
So wird nur das Mh Chao Modell konvergiert, es wird geschätzt N 1262,7 =.N^
BEARBEITEN: Um die Zuverlässigkeit der obigen Methode zu überprüfen, habe ich den obigen Code für 10000 generierte Samples ausgeführt. Das Mh Chao-Modell konvergierte jedes Mal. Hier ist die Zusammenfassung:
quelle