Erwartung der Summe von K Zahlen ohne Ersatz

9

Gegeben sind Zahlen, bei denen der Wert jeder Zahl unterschiedlich ist, bezeichnet als , und die Wahrscheinlichkeit, jede Zahl auszuwählen, ist .nv1,v2,...,vnp1,p2,...,pn

Wenn ich nun Zahlen basierend auf den gegebenen Wahrscheinlichkeiten auswähle , wobei , wie hoch ist die Erwartung der Summe dieser Zahlen? Beachten Sie, dass die Auswahl ersatzlos ist, sodass die Nummern keine doppelten Nummern enthalten dürfen. Ich verstehe, dass, wenn die Auswahl ersetzt wird, die Erwartung der Summe der Zahlen gleich , wobeiKKnKKKK×E(V)

E(V)=v1×p1+v2×p2+...+vn×pn.

Was ist außerdem mit der Erwartung der Varianz dieser Zahlen?K

Ich bin ein CS-Doktorand, der an einem Big-Data-Problem arbeitet, und ich habe keinen statistischen Hintergrund. Ich erwarte, dass mir jemand eine Formel als Antwort geben kann. Wenn die Antwort jedoch zu kompliziert ist, um durch eine Formel beschrieben zu werden, oder eine intensive Berechnung erforderlich ist, ist eine ungefähre Antwort völlig akzeptabel.

Sie können davon ausgehen, dass hier ziemlich groß ist und die Wahrscheinlichkeit sehr unterschiedlich sein kann. In der Praxis stammen die Werte dieser Wahrscheinlichkeiten aus einem Abfrageprotokoll, das eine Reihe von Aggregationsabfragen aufzeichnet. Der Punkt ist, dass die Häufigkeit jeder an den Abfragen beteiligten Nummer ziemlich schief sein kann, dh einige werden selten abgefragt, während andere sehr häufig abgefragt werden. Sie können davon ausgehen, dass es sich bei der Wahrscheinlichkeitsverteilung um Normalverteilung, Zipf-Verteilung oder andere sinnvolle Alternativen handelt.n

Die Werteverteilung ist nur eine zusammenhängende Teilmenge einer möglichen Verteilung. Mit anderen Worten, wenn Sie ein Histogramm haben, das eine bestimmte Verteilung darstellt, sind alle an diesem Problem beteiligten Zahlen die Zahlen in einem einzigen Bucket.

In Bezug auf den Wert von K können Sie annehmen, dass er immer kleiner ist als die Anzahl der häufig abgefragten Elemente.

SciPioneer
quelle
3
Die Erwartung der Varianz der Summe wird ersatzlos unterschiedlich sein; Sie benötigen einen endlichen Populationskorrekturfaktor, wenn es keinen Ersatz gibt. (Um dies intuitiv zu sehen, ist zu beachten, dass bei K = n die Varianz der Summe Null ist, da sie immer dieselbe Zahl ist. Wenn sich K n nähert, ist die Varianz der Summe geringer.)
zbicyclist
1
Diese Frage könnte schwieriger sein, als es aussehen mag. Betrachten Sie den Fall und . Die erwartete Summe von zwei mit Ersetzung gezeichneten Werten ist was natürlich doppelt so ist wie die erwartete Summe eines Wertes; aber die erwartete Summe von zwei ersatzlos gezeichneten Werten ist offensichtlich außer wenn . n=2(v1,v2)=(0,1)2p2v1+v2=12p2p1=p2=1/2
whuber
1
@zbicyclist Vielleicht habe ich das Problem nicht klar angegeben. Wenn in meinem Szenario K = N ist, ist die Varianz dieser K-Zahlen eher die Varianz der Allgemeinbevölkerung als 0.
SciPioneer
1
(1) Dies sieht für mich nicht nach einer Frage zum Selbststudium aus : Es sieht nach einem echten Problem der angewandten Wahrscheinlichkeit aus. (2) Wie groß könnte sein? Genaue Lösungen sind nur dann praktikabel, wenn alle Teilmengen aufgelistet werden können. (3) Wenn viel größer als könnte , was eine schnelle Aufzählung ausschließt, was können Sie über sagen ? Könnten sie beispielsweise variieren oder liegen sie alle ziemlich nahe bei ? Dies könnte die Bemühungen um ungefähre Antworten beeinflussen. nn20pi1/n
whuber
1
Danke für die Änderungen. Je mehr Sie uns über , , das und das erzählen können, desto besser. Wenn beispielsweise ist, sollten Formeln für die Abtastung mit Ersetzung gute Näherungswerte sein (da nur sehr wenige Werte, falls vorhanden, mehr als einmal ausgewählt würden). Ich glaube, die schwierigsten Fälle sind, in denen es einen weiten Wertebereich von gibt - so dass Sie die meisten nicht einfach durch Nullen und dennoch durch für eine nennenswerte Anzahl von - und ersetzen können . NKvipiKmax(pi)1pipi>1/KiKN/2
whuber

Antworten:

2

Dies liegt wahrscheinlich in der Natur einer Antwort, die zwar genau, aber wahrscheinlich nicht so nützlich ist. Horvitz und Thompson (1952) liefern Ergebnisse, die diese Situation im Allgemeinen abdecken. Diese Ergebnisse werden in Form der zu erwartenden kombinatorischen Ausdrücke angegeben.

Lassen Sie mich einige Mengen neu definieren, um mit ihrer Notation in Einklang zu bleiben und auch besser mit der weiter verbreiteten Notation zu korrespondieren. Sei die Anzahl der Elemente in der Population und die Stichprobengröße.Nn

Sei , , die Elemente der Population mit gegebenen Werten , und Auswahlwahrscheinlichkeiten . Für eine gegebene Stichprobe der Größe seien die beobachteten Werte in der Stichprobe .uii=1,...,NNVii=1,...,Np1,...,pNnv1,...,vn

Was gewünscht wird, sind der Mittelwert und die Varianz der Stichprobensumme

i=1nvi.

Wie in den Kommentaren erwähnt, die Wahrscheinlichkeit der Auswahl einer bestimmten Stichprobe in dieser Reihenfolge wobei die anfängliche Wahrscheinlichkeit des Zeichnens durch , die zweite Wahrscheinlichkeit des Zeichnens abhängig ist, dass aus der Population entfernt wurde, und so weiter. Jede nachfolgende gezeichnete Einheit führt also zu einer neuen Wahrscheinlichkeitsverteilung für die nächste Einheit (daher die Auswahl verschiedener Kennbuchstaben, da jede eine andere Verteilung darstellt).s={ui,uj,...,ut}

Pr(s)=pi1pj2ptn,
pi1uipipj2ujui

Es gibt Stichproben der Größe , die aus der gesamten Population enthalten. Beachten Sie, dass dies das berücksichtigtPermutationen der Probe.

S(i)=n!(N1n1)
nuin!

Es sei eine bestimmte Stichprobe der Größe die . Dann ist die Wahrscheinlichkeit der Auswahl des Elements gegeben durch wobei die Summierung über der Menge der Größe von liegt alle möglichen Stichproben der Größe , die enthalten . (Ich habe die Notation ein wenig von der Zeitung geändert, da sie mir verwirrend erschien.)sn(i)nuiui

P(ui)=Pr(sn(i)),
S(i)sn(i)nui

In ähnlicher Weise definieren Sie als Anzahl der Samples, die sowohl als auch . Dann können wir die Wahrscheinlichkeit einer Stichprobe definieren, die beide enthält: wobei die Summierung über der Menge der Größe aller möglichen Stichproben der Größe , die und .

S(ij)=n!(N2n2)
uiuj
P(uiuj)=Pr(sn(ij)),
S(ij)sn(ij)nuiuj

Der erwartete Wert wird dann abgeleitet als

E(i=1nvi)=i=1NP(ui)Vi.

Obwohl die Varianz in der Arbeit nicht explizit abgeleitet wird, könnte sie aus den Erwartungen des ten Moments und die Kreuzprodukte q

E(i=1nviq)=i=1NP(ui)Viq
E(ijnvivj)=ijP(uiuj)ViVj.

Mit anderen Worten, es sieht so aus, als müsste man alle möglichen Teilmengen durchgehen, um diese Berechnungen durchzuführen. Möglicherweise könnte dies jedoch für kleinere Werte von werden.n

Horvitz, DG und Thompson, DJ (1952) Eine verallgemeinernde Verallgemeinerung von Sampling aus einem endlichen Universum. Journal of the American Statistical Association 47 (260): 663 & ndash; 685.

jvbraun
quelle