Schätzung von n im Problem des Kuponsammlers

14

In einer Variation des Problems des Gutscheinsammlers kennen Sie die Anzahl der Gutscheine nicht und müssen diese anhand von Daten ermitteln. Ich werde dies als das Fortune-Cookie-Problem bezeichnen:

Bei einer unbekannten Anzahl unterschiedlicher Glückskeksnachrichten n schätzen Sie n indem Sie die Cookies einzeln abtasten und zählen, wie oft jedes Glück erscheint. Bestimmen Sie auch die Anzahl der Proben, die erforderlich sind, um ein gewünschtes Konfidenzintervall für diese Schätzung zu erhalten.

Grundsätzlich benötige ich einen Algorithmus, der gerade genug Daten abtastet, um ein bestimmtes Konfidenzintervall zu erreichen, z. B. n±5 mit 95% Konfidenz. Der Einfachheit halber können wir davon ausgehen, dass alle Schicksale mit der gleichen Wahrscheinlichkeit / Häufigkeit auftreten. Dies gilt jedoch nicht für ein allgemeineres Problem, und eine Lösung hierfür ist ebenfalls zu begrüßen.

Dies scheint dem deutschen Panzerproblem ähnlich zu sein , aber in diesem Fall werden Glückskekse nicht fortlaufend gekennzeichnet und haben daher keine Reihenfolge.

Goweon
quelle
1
Wissen wir, dass die Nachrichten gleich häufig sind?
Glen_b -Reinstate Monica
bearbeitete Frage: Ja
goweon
2
Können Sie die Wahrscheinlichkeitsfunktion aufschreiben?
Zen
2
Menschen, die Wildtierstudien durchführen, erfassen, markieren und lassen Tiere frei. Sie schließen später die Größe der Population auf der Grundlage der Häufigkeit, mit der sie bereits markierte Tiere zurückerobern. Es hört sich so an, als ob Ihr Problem mathematisch dem Ihren entspricht.
Emil Friedman

Antworten:

6

Für den Fall gleicher Wahrscheinlichkeit / Häufigkeit funktioniert dieser Ansatz möglicherweise für Sie.

Sei die Gesamtstichprobengröße, N die Anzahl der beobachteten Gegenstände, N 1 die Anzahl der genau einmal gesehenen Gegenstände, N 2 die Anzahl der genau zweimal gesehenen Gegenstände, A = N 1 ( 1 - N 1KNN1N2und Q =N1A=N1(1N1K)+2N2,Q^=N1K.

Dann ist ein ungefähres 95% -Konfidenzintervall auf die Gesamtpopulationsgröße gegeben durchn

n^Lower=11Q^+1.96AK

n^Upper=11Q^1.96AK

Bei der Implementierung müssen Sie diese möglicherweise in Abhängigkeit von Ihren Daten anpassen.

Die Methode beruht auf Good and Turing. Eine Referenz mit dem Konfidenzintervall ist Esty, Warren W. (1983), "Ein normales Grenzgesetz für einen nichtparametrischen Schätzer der Erfassung einer Zufallsstichprobe" , Ann. Statist. Band 11, Nummer 3, 905-912.

Für das allgemeinere Problem hat Bunge freie Software entwickelt, die mehrere Schätzungen erstellt. Suche mit seinem Namen und dem Wort CatchAll .

Soakley
quelle
1
Ich habe mir erlaubt, die Esty-Referenz hinzuzufügen. Bitte überprüfen Sie noch einmal, ob es das ist, was Sie gemeint haben
Glen_b -Reinstate Monica
Ist es @soakley möglich, Grenzen zu erhalten (wahrscheinlich weniger genaue Grenzen), wenn Sie nur (Stichprobengröße) und N (Anzahl der sichtbaren eindeutigen Elemente) kennen? dh wir haben keine Informationen über N 1 und N 2 . KNN1N2
Basj
Ich weiß nicht, wie ich das mit nur und N machen kann . KN.
Soakley
2

Ich weiß nicht, ob es helfen kann, aber es ist das Problem, verschiedene Bälle während n Versuchen in einer Urne mit m Bällen zu nehmen, die unterschiedlich mit Ersatz gekennzeichnet sind. Laut dieser Seite (in Französisch) ergibt sich für X n, wenn die Zufallsvariable die Anzahl der verschiedenen Bälle zählt, die Wahrscheinlichkeitsfunktion aus: P ( X n = k ) = ( mknmXnP(Xn=k)=(mk)i=0k(1)ki(ki)(im)n

Then you can use a maximum likelihood estimator.

Another formula with proof is given here to solve the occupancy problem.

sylvain
quelle
1

Likelihood function and probability

In an answer to a question about the reverse birthday problem a solution for a likelihood function has been given by Cody Maughan.

The likelihood function for the number of fortune cooky types m when we draw k different fortune cookies in n draws (where every fortune cookie type has equal probability of appearing in a draw) can be expressed as:

L(m|k,n)=mnm!(mk)!P(k|m,n)=mnm!(mk)!S(n,k)Stirling number of the 2nd kind=mnm!(mk)!1k!i=0k(1)i(ki)(ki)n=(mk)i=0k(1)i(ki)(kim)n

For a derivation of the probability on the right hand side see the the occupancy problem. This has been described before on this website by Ben. The expression is similar to the one in the answer by Sylvain.

Maximum likelihood estimate

We can compute first order and second order approximations of the maximum of the likelihood function at

m1(n2)nk

m2(n2)+(n2)24(nk)(n3)2(nk)

Likelihood interval

(note, this is not the same as a confidence interval see: The basic logic of constructing a confidence interval)

This remains an open problem for me. I am not sure yet how to deal with the expression mnm!(mk)! (of course one can compute all values and select the boundaries based on that, but it would be more nice to have some explicit exact formula or estimate). I can not seem to relate it to any other distribution which would greatly help to evaluate it. But I feel like a nice (simple) expression could be possible from this likelihood interval approach.

Confidence interval

For the confidence interval we can use a normal approximation. In Ben's answer the following mean and variance are given:

E[K]=m(1(11m)n)
V[K]=m((m1)(12m)n+(11m)nm(11m)2n)

Say for a given sample n=200 and observed unique cookies k the 95% boundaries E[K]±1.96V[K] look like:

confidence interval boundaries

In the image above the curves for the interval have been drawn by expressing the lines as a function of the population size m and sample size n (so the x-axis is the dependent variable in drawing these curves).

The difficulty is to inverse this and obtain the interval values for a given observed value k. It can be done computationally, but possibly there might be some more direct function.

In the image I have also added Clopper Pearson confidence intervals based on a direct computation of the cumulative distribution based on all the probabilities P(k|m,n) (I did this in R where I needed to use the Strlng2 function from the CryptRndTest package which is an asymptotic approximation of the logarithm of the Stirling number of the second kind). You can see that the boundaries coincide reasonably well, so the normal approximation is performing well in this case.

# function to compute Probability
library("CryptRndTest")
P5 <- function(m,n,k) {
  exp(-n*log(m)+lfactorial(m)-lfactorial(m-k)+Strlng2(n,k))
}
P5 <- Vectorize(P5)

# function for expected value 
m4 <- function(m,n) {
  m*(1-(1-1/m)^n)
}

# function for variance
v4 <- function(m,n) {
  m*((m-1)*(1-2/m)^n+(1-1/m)^n-m*(1-1/m)^(2*n))
}


# compute 95% boundaries based on Pearson Clopper intervals
# first a distribution is computed
# then the 2.5% and 97.5% boundaries of the cumulative values are located
simDist <- function(m,n,p=0.05) {
  k <- 1:min(n,m)
  dist <- P5(m,n,k)
  dist[is.na(dist)] <- 0
  dist[dist == Inf] <- 0
  c(max(which(cumsum(dist)<p/2))+1,
       min(which(cumsum(dist)>1-p/2))-1)
}


# some values for the example
n <- 200
m <- 1:5000
k <- 1:n

# compute the Pearon Clopper intervals
res <- sapply(m, FUN = function(x) {simDist(x,n)})


# plot the maximum likelihood estimate
plot(m4(m,n),m,
     log="", ylab="estimated population size m", xlab = "observed uniques k",
     xlim =c(1,200),ylim =c(1,5000),
     pch=21,col=1,bg=1,cex=0.7, type = "l", yaxt = "n")
axis(2, at = c(0,2500,5000))

# add lines for confidence intervals based on normal approximation
lines(m4(m,n)+1.96*sqrt(v4(m,n)),m, lty=2)
lines(m4(m,n)-1.96*sqrt(v4(m,n)),m, lty=2)
# add lines for conficence intervals based on Clopper Pearson
lines(res[1,],m,col=3,lty=2)
lines(res[2,],m,col=3,lty=2)

# add legend
legend(0,5100,
       c("MLE","95% interval\n(Normal Approximation)\n","95% interval\n(Clopper-Pearson)\n")
       , lty=c(1,2,2), col=c(1,1,3),cex=0.7,
       box.col = rgb(0,0,0,0))
Sextus Empiricus
quelle
For the case of unequal probabilities. You can approximate the number of cookies of a particular type as independent Binomial/Poisson distributed variables and describe whether they are filled or not as Bernouilli variables. Then add together the variance and means for those variables. I guess that this is also how Ben derived/approximated the expectation value and variance. ----- A problem is how you describe these different probabilities. You can not do this explicitly since you do not know the number of cookies.
Sextus Empiricus