Hier ist ein Beispielfall:
- Ich habe eine Bevölkerung von 10.000 Artikeln. Jeder Artikel hat eine eindeutige ID.
- Ich wähle zufällig 100 Artikel aus und notiere die IDs
- Ich habe die 100 Gegenstände wieder in die Bevölkerung aufgenommen
- Ich wähle wieder zufällig 100 Elemente aus, notiere die IDs und ersetze sie.
- Insgesamt wiederhole ich diese Zufallsstichprobe fünfmal
Wie groß ist die Wahrscheinlichkeit, dass in allen 5 zufälligen Stichproben Elemente erscheinen?
Ich bin nicht sehr versiert in Statistik. Wäre das richtig für ?
- Für jede Stichprobe beträgt die Anzahl der möglichen Kombinationen von 100 Elementen aus 10.000
- Von allen möglichen Kombinationen von 100 Elementen enthalten Kombinationen 10 spezifische Elemente
- Die Wahrscheinlichkeit, 10 spezifische Elemente zu haben, ist
- Die berechnete Wahrscheinlichkeit hoch 5 würde 5 unabhängige Stichproben darstellen.
Im Wesentlichen berechnen wir also nur 5 unabhängige hypergeometrische Wahrscheinlichkeiten und multiplizieren sie dann miteinander? Ich habe das Gefühl, irgendwo einen Schritt zu verpassen.
probability
hypergeometric
Daemonk
quelle
quelle
Antworten:
Berechnen Sie die Chancen rekursiv.
Sei die Wahrscheinlichkeit, dass genau x- Werte, 0 ≤ x ≤ k , in allen s ≥ 1 unabhängigen Ziehungen von k Elementen (ohne Ersatz) aus einer Population von n ≥ k > 0 Mitgliedern ausgewählt werden. (Lassen Sie uns n und k für die Dauer der Analyse festhalten, damit sie nicht explizit erwähnt werden müssen.)ps(x) x 0≤x≤k s≥1 k n≥k>0 n k
Sei die Wahrscheinlichkeit, dass, wenn in den ersten s - 1 Ziehungen genau y Werte ausgewählt werden, in der letzten Ziehung x ≤ y von ihnen ausgewählt werden. Dann, weil es Teilmengen von Elementen dieser Elemente gibt und Teilmengen der verbleibenden Elemente getrennt aus den anderen Mitgliedern der Population ausgewählt werden,ps(x∣y) y s−1 x≤y (yx) y ( n - yx y k-xn-y(n−yk−x) k−x n−y
Das Gesetz der Gesamtwahrscheinlichkeit behauptet
Für ist es eine Gewissheit, dass : Dies ist die Startverteilung.s=1 x=k
Die Gesamtberechnung, die erforderlich ist, um die vollständige Verteilung durch Wiederholungen zu erhalten, beträgt . Das ist nicht nur ziemlich schnell, der Algorithmus ist auch einfach. Eine Gefahr für den unachtsamen Programmierer besteht darin, dass diese Wahrscheinlichkeiten extrem klein werden und Gleitkommaberechnungen unterlaufen können. Die folgende Implementierung vermeidet dies, indem die Werte von in den Spalten eines Arrays .s O(k2s) log(ps(x)) 1,2,…,s
R
Die Antwort auf die Frage erhält man, indem man und .s=5, n=10000=104 k=100=102 Die Ausgabe ist ein Array, aber die meisten Zahlen sind so klein, dass wir uns auf sehr kleine . Hier sind die ersten vier Zeilen, die :101×5 x x=0,1,2,3
Die Ausgabe ist
Die Werte von kennzeichnen die Zeilen, während die Werte von die Spalten kennzeichnen. Spalte 5 zeigt, dass die Wahrscheinlichkeit, dass ein Element in allen fünf Stichproben erscheint, winzig ist (ungefähr eins zu einer Million), und es besteht im Wesentlichen keine Chance, dass zwei oder mehr Elemente in allen fünf Stichproben auftreten.x s
Wenn Sie sehen möchten, wie gering diese Chancen sind, schauen Sie sich ihre Logarithmen an. Basis 10 ist praktisch und wir brauchen nicht viele Ziffern:
Die Ausgabe gibt an, wie viele Nullen nach dem Dezimalpunkt stehen:
Die Zahlen in der oberen Reihe sind Werte von . Zum Beispiel wird die Wahrscheinlichkeit, dass genau drei Werte in allen fünf Stichproben , durch Berechnen ermittelt , wobei und tatsächlich hat dies Nullen vor dem erste signifikante Ziffer. Zur Überprüfung ist der letzte Wert eine gerundete Version von . (was die Wahrscheinlichkeit zählt, dass das erste Sample in den nächsten vier Samples wieder erscheint) entsprichtx 0.0000000000000000001434419… 18 967.0 967.26 (10000100)−4 10−967.26.
exp(u[4])
quelle
Ich bin gerade auf ein ähnliches Problem gestoßen und habe es, obwohl ich auch nicht weiß, ob dies die richtige Lösung ist, folgendermaßen angegangen:
Sie interessieren sich für das Auftreten von Artikeln in 5 Proben - Artikel von insgesamt Artikeln. Man könnte sich eine Urne mit weißen Kugeln und schwarzen Kugeln vorstellen. Bälle werden herausgenommen und ist die Wahrscheinlichkeit, dass Sie alle weißen Bälle in Ihrem Set haben. Wenn Sie dies Mal (unabhängig) tun , würde ich es multiplizieren: .X 100 10,000 X 10,000−X 100 ph X 5 p=ph5
Ich könnte sogar denken einen Schritt weiter und wickeln Sie es um die Binomialverteilung: Wenn Sie eine Münze haben , die den Kopf kommt mit Wahrscheinlichkeit (die Wahrscheinlichkeit , dass Sie alle Artikel in Ihrem Set haben) , und Sie werfen es mal, was das ist Wahrscheinlichkeit Köpfe zu bekommen? .ph 5 5 p=(55)ph5(1−ph)5−5=ph5
quelle
Aufbauend auf dem, was Hans gesagt hat, möchten Sie immer die gleichen IDs in jeder Stichprobe von 100 und 100- IDs aus den verbleibenden 10000- . Die Wahrscheinlichkeit, dies für eine gegebene Stichprobe zu tun, ergibt sich aus der hypergeometrischen Funktion für Erfolge bei einer Ziehung von 100 aus einer Population von 10000 mit möglichen Erfolgszuständen: . Für 5 Proben würden Sie .X X X X X P5P=(XX)(10000−X100−X)(10000100) P5
Wir setzen jedoch voraus, dass Sie die gemeinsam genutzten IDs kennen und dass es Möglichkeiten gibt, um diese IDs auszuwählen . Ihre endgültige Antwort wäre also .( 10000X X ( 10000(10000X) X (10000X)P5
quelle