Können wir die Größe einer Teilmenge X einer Menge A durch zufälliges Abtasten von Teilmengen von A abschätzen?

8

Sei eine endliche Menge und nehmen wir an, wir wollen die Größe einer Teilmenge X berechnen .AX

Motivation : Wenn wir Elemente von A gleichmäßig zufällig erzeugen können , können wir die Größe von A durch Zufallsstichprobe schätzen . Das heißt, wir nehmen n Zufallsstichproben von A , wenn m von ihnen zu X gehören , dann | X | / | A | m / n . Leider für das, was ich mache, normalerweise | A | ist massiv und | X | (während massiv) ist in Bezug auf | ziemlich klein A |xAAnAmX|X|/|A|m/n|A||X||A|. Wenn ich also versuche, die obige Schätzung durchzuführen, erhalte ich wahrscheinlich , was zwar nicht nutzlos, aber nicht wirklich befriedigend ist.m=0

Ich habe also die Idee, dass ich hoffe, diesen Prozess zu beschleunigen. Warum werfe ich keine Bälle, anstatt Darts auf eine massive Dartscheibe zu werfen? Das heißt, anstatt Elemente abzutasten , werden Teilmengen von A abgetastet . Sicherlich sollte ich aus diesem Experiment etwas über die Dichte von X in A ableiten können.xAAXA

Angenommen, ist mit einer Metrik d ( x , y ) ausgestattet (ich denke an den Hamming-Abstand). Für jedes y A sei Y ( y ) = { x A : d ( x , y ) k } die geschlossene Kugel mit dem Radius k in A, zentriert bei t . Da wir Elemente x A gleichmäßig zufällig abtasten können, können wir k- Kugeln Y abtastenAd(x,y)yAY(y)={xA:d(x,y)k}kAtxAk gleichmäßig zufällig.Yk(t)

Angenommen, (a) jedes gehört zu genau der gleichen Anzahl von k- Bällen und (b) jeder k- Ball hat die gleiche Größe r .xAkkr

Nehmen wir nun an, ich generiere Bälle Y 1 , Y 2 , , Y n gleichmäßig zufällig und nehme an, m = n i = 1 | Y iX | . Es scheint, wir können | schätzen A | in ähnlicher Weise ist das | X | / | A | mkY1,Y2,,Ynm=i=1n|YiX||A| .|X|/|A|mrn

Meine Fragen sind also:

Stimmt es, dass wir uns annähern können diesen Weg? Wenn ja, bezweifle ich, dass ich der Erste bin, der daran denkt. Gibt es also einen Namen für diese Methode?|X|

Ich habe dies tatsächlich an einigen Sets getestet und es scheint mit dem übereinzustimmen, was ich behaupte.

Gibt es irgendwelche Nachteile bei diesem Ansatz? (zB ist es weniger genau? Brauche ich mehr Proben?)

Douglas S. Stones
quelle
Ich denke, Sie haben im zweiten Absatz einen kleinen Fehler gemacht: . Ansonsten erfinden Sie im Grunde genommen die Monte-Carlo-Integration neu. Nun, die Teilmengenversion, auf die ich noch nicht gestoßen bin, aber ich wäre nicht überrascht, wenn sie bereits fertig wäre. |X|/|A|m/n
Raskolnikov
Danke, ja, das war ein Fehler (tatsächlich gab es später auch einen ähnlichen).
Douglas S. Stones

Antworten:

3

OK, lesen Sie die Wikipedia-Seite für die Monte-Carlo-Integration . Sie werden sehen, dass sie eine geschichtete Version erwähnen. Schichtung ist der Fachbegriff in der Statistik für das, was Sie versuchen: Unterteilung in Teilmengen (Teilstichproben). Ich denke, die Referenzen können Ihnen weiterhelfen.

Raskolnikov
quelle
3

Für jede Teilmenge von A sei π ( Y ) die Wahrscheinlichkeit, mit der Sie sie in Ihrer Stichprobe auswählen. Sie haben eine Zufallsvariable beschriebenYAπ(Y)

f(Y)=|YX|.

Die Summe von in der Population von Teilmengen von A istfA

τ(X)=YA|YX|=2|A|1|X|.

Aus einer Stichprobe (mit Ersetzung) von Teilmengen von , beispielsweise Y 1 , Y 2 , , Y m , erhält der Hansen-Hurwitz-Schätzer eine unvoreingenommene Schätzung dieser Summe alsAY1,Y2,,Ym

f^π=ich=1m|Y.ichX.|π(Y.ich).

Teilen Sie dies durch daher Schätzungen | X | / | A | . Die Varianz f π ist2|EIN|- -1|EIN||X.|/.|EIN|f^π

Var(f^π)=1mY.EINπ(Y.)(|Y.X.|π(Y.)- -2|EIN|- -1|X.|)2.

Teilen Sie dies durch ergibt die Stichprobenvarianz von | X | / | A | . Wählen Sie bei gegebenem A , X und einem vorgeschlagenen Abtastverfahren (das π ( Y ) für alle Y A spezifiziert ) einen Wert von m (die Stichprobengröße), für den die Schätzungsvarianz akzeptabel klein wird.22(|EIN|- -1)|EIN|2|X.|/.|EIN|EINX.π(Y.)Y.EINm

whuber
quelle
toll, ich denke das ist die Antwort! Ich kannte Hansen-Hurwitz nicht ...
Robin Girard
2

Ich gehe davon aus, dass Ihr Maß endlich ist. WLOG kann es eine Wahrscheinlichkeit sein.

Das erste Verfahren, das Sie erwähnen, ist die gute alte empirische Wahrscheinlichkeitsschätzung :

P.^(Y.X.)=|{xichX.}}|/.n

{xichX.}}

X.xichX.X.

P.^(Y.X.)=1/.(c(k)n)ichK.(d(xich,X.)/.k)

K.1K.(x)=1{x1}}c(k)P.^(Y.EIN)=1

Robin Girard
quelle