Gegeben sind Zahlen, bei denen der Wert jeder Zahl unterschiedlich ist, bezeichnet als , und die Wahrscheinlichkeit, jede Zahl auszuwählen, ist .
Wenn ich nun Zahlen basierend auf den gegebenen Wahrscheinlichkeiten auswähle , wobei , wie hoch ist die Erwartung der Summe dieser Zahlen? Beachten Sie, dass die Auswahl ersatzlos ist, sodass die Nummern keine doppelten Nummern enthalten dürfen. Ich verstehe, dass, wenn die Auswahl ersetzt wird, die Erwartung der Summe der Zahlen gleich , wobei
Was ist außerdem mit der Erwartung der Varianz dieser Zahlen?
Ich bin ein CS-Doktorand, der an einem Big-Data-Problem arbeitet, und ich habe keinen statistischen Hintergrund. Ich erwarte, dass mir jemand eine Formel als Antwort geben kann. Wenn die Antwort jedoch zu kompliziert ist, um durch eine Formel beschrieben zu werden, oder eine intensive Berechnung erforderlich ist, ist eine ungefähre Antwort völlig akzeptabel.
Sie können davon ausgehen, dass hier ziemlich groß ist und die Wahrscheinlichkeit sehr unterschiedlich sein kann. In der Praxis stammen die Werte dieser Wahrscheinlichkeiten aus einem Abfrageprotokoll, das eine Reihe von Aggregationsabfragen aufzeichnet. Der Punkt ist, dass die Häufigkeit jeder an den Abfragen beteiligten Nummer ziemlich schief sein kann, dh einige werden selten abgefragt, während andere sehr häufig abgefragt werden. Sie können davon ausgehen, dass es sich bei der Wahrscheinlichkeitsverteilung um Normalverteilung, Zipf-Verteilung oder andere sinnvolle Alternativen handelt.
Die Werteverteilung ist nur eine zusammenhängende Teilmenge einer möglichen Verteilung. Mit anderen Worten, wenn Sie ein Histogramm haben, das eine bestimmte Verteilung darstellt, sind alle an diesem Problem beteiligten Zahlen die Zahlen in einem einzigen Bucket.
In Bezug auf den Wert von K können Sie annehmen, dass er immer kleiner ist als die Anzahl der häufig abgefragten Elemente.
quelle
Antworten:
Dies liegt wahrscheinlich in der Natur einer Antwort, die zwar genau, aber wahrscheinlich nicht so nützlich ist. Horvitz und Thompson (1952) liefern Ergebnisse, die diese Situation im Allgemeinen abdecken. Diese Ergebnisse werden in Form der zu erwartenden kombinatorischen Ausdrücke angegeben.
Lassen Sie mich einige Mengen neu definieren, um mit ihrer Notation in Einklang zu bleiben und auch besser mit der weiter verbreiteten Notation zu korrespondieren. Sei die Anzahl der Elemente in der Population und die Stichprobengröße.N n
Sei , , die Elemente der Population mit gegebenen Werten , und Auswahlwahrscheinlichkeiten . Für eine gegebene Stichprobe der Größe seien die beobachteten Werte in der Stichprobe .ui i=1,...,N N Vi i=1,...,N p1,...,pN n v1,...,vn
Was gewünscht wird, sind der Mittelwert und die Varianz der Stichprobensumme
Wie in den Kommentaren erwähnt, die Wahrscheinlichkeit der Auswahl einer bestimmten Stichprobe in dieser Reihenfolge wobei die anfängliche Wahrscheinlichkeit des Zeichnens durch , die zweite Wahrscheinlichkeit des Zeichnens abhängig ist, dass aus der Population entfernt wurde, und so weiter. Jede nachfolgende gezeichnete Einheit führt also zu einer neuen Wahrscheinlichkeitsverteilung für die nächste Einheit (daher die Auswahl verschiedener Kennbuchstaben, da jede eine andere Verteilung darstellt).s={ui,uj,...,ut}
Es gibt Stichproben der Größe , die aus der gesamten Population enthalten. Beachten Sie, dass dies das berücksichtigtPermutationen der Probe.
Es sei eine bestimmte Stichprobe der Größe die . Dann ist die Wahrscheinlichkeit der Auswahl des Elements gegeben durch wobei die Summierung über der Menge der Größe von liegt alle möglichen Stichproben der Größe , die enthalten . (Ich habe die Notation ein wenig von der Zeitung geändert, da sie mir verwirrend erschien.)s(i)n n ui ui
In ähnlicher Weise definieren Sie als Anzahl der Samples, die sowohl als auch . Dann können wir die Wahrscheinlichkeit einer Stichprobe definieren, die beide enthält: wobei die Summierung über der Menge der Größe aller möglichen Stichproben der Größe , die und .
Der erwartete Wert wird dann abgeleitet als
Obwohl die Varianz in der Arbeit nicht explizit abgeleitet wird, könnte sie aus den Erwartungen des ten Moments und die Kreuzprodukteq
Mit anderen Worten, es sieht so aus, als müsste man alle möglichen Teilmengen durchgehen, um diese Berechnungen durchzuführen. Möglicherweise könnte dies jedoch für kleinere Werte von werden.n
Horvitz, DG und Thompson, DJ (1952) Eine verallgemeinernde Verallgemeinerung von Sampling aus einem endlichen Universum. Journal of the American Statistical Association 47 (260): 663 & ndash; 685.
quelle