Wenn ich 232 Personen aus einem Pool von 363 ersatzlosen Personen auswähle, wie hoch ist die Wahrscheinlichkeit, dass 2 einer Liste von 12 bestimmten Personen in dieser Auswahl enthalten sind?
Dies ist eine zufällige Auslosung für ein Ultra-Rennen, bei dem 363 Teilnehmer für 232 Plätze anwesend waren. Es gibt ein Argument darüber, ob die Auswahl gegen eine bestimmte Gruppe von 12 Personen voreingenommen war.
Mein erster Versuch, dies zu berechnen, war, dass 232 363 mögliche Auswahlen ausgewählt wurden. Die Anzahl der Kombinationen einer Person aus der Liste der Zwölf ist 1 wählen 12 + 2 wählen 12 + ... + 11 wählen 12 + 12 wählen 12. Also 1 wählen 12 + 2 wählen 12 .... / 232 wählen 363 Das ist eine sehr niedrige Zahl, die eindeutig zu niedrig ist.
Wie berechne ich das?
Antworten:
Ich interpretiere die Frage folgendermaßen: Angenommen, die Probenahme wurde angeblich so durchgeführt, als würden weiße Papiertickets in ein Glas gegeben, das jeweils mit dem Namen einer Person beschriftet ist, und wurden nach gründlichem Rühren des Glasinhalts zufällig herausgenommen. Zuvor waren der Tickets rot gefärbt. Wie groß ist die Wahrscheinlichkeit, dass genau zwei der ausgewählten Tickets rot sind? Wie groß ist die Wahrscheinlichkeit, dass höchstens zwei der Tickets rot sind?363 232 12
Eine genaue Formel kann erhalten werden, aber wir müssen nicht so viel theoretische Arbeit leisten. Stattdessen verfolgen wir nur die Chancen, wenn die Tickets aus dem Glas gezogen werden. Zu dem Zeitpunkt, an dem von ihnen zurückgezogen wurden, soll die Chance, dass genau rote Tickets gesehen wurden, . Beachten Sie zunächst, dass wenn (Sie können keine roten Tickets haben, bevor Sie beginnen) und (es ist sicher, dass Sie keine roten Tickets haben am Anfang). Bei der letzten Ziehung war das Ticket entweder rot oder nicht. Im ersten Fall hatten wir zuvor die Chance , genaum i p(i,m) p(i,0)=0 i>0 p(0,0)=1 p(i−1,m−1) i−1 rote Tickets. Wir dann geschahen dann einen roten von den übrigen ziehen Tickets, so dass es genau rot bisher Tickets. Da wir davon ausgehen, dass alle Tickets in jeder Phase die gleichen Chancen haben, betrug unsere Chance, auf diese Weise ein Rot zu ziehen, . Im anderen Fall hatten wir die Chance , genau rote Tickets in den vorherigen Ziehungen zu erhalten, und die Chance , der Stichprobe bei der nächsten Ziehung kein weiteres rotes Ticket hinzuzufügen, war363−m+1 i (12−i+1)/(363−m+1) p(i,m−1) i m−1 (363−m+1−12+i)/(363−m+1) . Woher, unter Verwendung grundlegender Wahrscheinlichkeitsaxiome (dh die Chancen zweier sich gegenseitig ausschließender Fälle addieren sich und die bedingten Chancen multiplizieren sich),
Wir wiederholen diese Berechnung rekursiv und legen ein dreieckiges Array der Werte von für und . Nach einer kleinen Berechnung erhalten wir und und beantworten beide Versionen der Frage. Dies sind kleine Zahlen: Egal wie Sie es betrachten, es sind ziemlich seltene Ereignisse (seltener als eins zu tausend).0 ≤ i ≤ 12 0 ≤ m ≤ 232 p ( 2 , 232 ) ≈ 0,000849884 p ( 0 , 232 ) + P ( 1 , 232 ) + P ( 2 , 232 ) ≈ 0,000934314p(i,m) 0≤i≤12 0≤m≤232 p(2,232)≈0.000849884 p(0,232)+p(1,232)+p(2,232)≈0.000934314
Zur Überprüfung habe ich diese Übung 1.000.000 Mal mit einem Computer durchgeführt. In 932 = 0,000932 dieser Experimente wurden 2 oder weniger rote Tickets beobachtet. Dies liegt sehr nahe am berechneten Ergebnis, da die Stichprobenschwankung im erwarteten Wert von 934,3 etwa 30 (nach oben oder unten) beträgt. So wird die Simulation in R durchgeführt:
Dieses Mal änderten sich die Ergebnisse ein wenig, da die Experimente zufällig waren: In 948 der Millionen Versuche wurden zwei oder weniger rote Tickets beobachtet. Das stimmt immer noch mit dem theoretischen Ergebnis überein.)
Die Schlussfolgerung ist, dass es höchst unwahrscheinlich ist, dass zwei oder weniger der 232 Tickets rot sind. Wenn Sie tatsächlich eine Stichprobe von 232 von 363 Personen haben, ist dieses Ergebnis ein starker Hinweis darauf, dass das Ticket-in-a-Jar-Modell keine korrekte Beschreibung der Art und Weise ist, wie die Stichprobe erhalten wurde. Alternative Erklärungen umfassen (a) das Herausnehmen der roten Tickets aus dem Glas (eine "Voreingenommenheit" gegen sie) sowie (b) das Färben der Tickets nach Beobachtung der Probe ( Post-hoc- Daten-Snooping) nicht gegebenenfalls im bias).
Ein Beispiel für die Erklärung (b) in Aktion wäre ein Jury-Pool für einen berüchtigten Mordprozess. Angenommen, es umfasste 363 Personen. Aus diesem Pool befragte das Gericht 232 von ihnen. Ein ehrgeiziger Zeitungsreporter überprüft akribisch den Lebenslauf aller im Pool und stellt fest, dass 12 der 363 Goldfischliebhaber waren, aber nur zwei von ihnen wurden interviewt. Ist das Gericht gegen Goldfischzüchter voreingenommen? Wahrscheinlich nicht.
quelle
sample
) durchgeführt werden. Tatsächlich werden bei jeder Iterationsample
die Tickets bei jedem Aufruf gründlich gemischt, bevor 232 davon zurückgezogen werden.@whuber gab eine erschöpfende Erklärung, ich möchte nur darauf hinweisen, dass es eine statistische Standardverteilung gibt, die diesem Szenario entspricht: die hypergeometrische Verteilung. So können Sie solche Wahrscheinlichkeiten direkt in beispielsweise R erhalten:
Wahrscheinlichkeit von genau 2 von 12 ausgewählten:
Wahrscheinlichkeit von 2 oder weniger von 12 ausgewählten:
quelle
Die Chancen sind viel höher als mit der einfachen hypergeometrischen Verteilung berechnet, da die Gruppe nicht zufällig ausgewählt wird ( "12 Fische werden vor der Auslosung rot gestrichen" ).
Aus der Beschreibung der Frage geht hervor, ob die Auslosung einen Betrug aufweist. Eine bestimmte Gruppe von 12 Personen beschwerte sich, dass nur 2 von ihnen ausgewählt wurden, während die erwartete Anzahl 232/363 ~ 2/3 = 8 betrug.
Was wir wirklich berechnen müssen, ist die Wahrscheinlichkeit, dass " keine Gruppe der Größe 12 nur 2 Mitglieder ausgewählt hat". Die Wahrscheinlichkeit, dass mindestens eine Gruppe 2 oder weniger hat (daher wird sie sich über die Fairness der Auslosung beschweren), ist viel höher.
Wenn ich diese Simulation durchführe und überprüfe, wie viele der Versuche keine der 30 (= 360/12) Gruppen 2 oder weniger Auswahlen hatte, erhalte ich ungefähr 2,3% der Fälle. 1:42 ist niedrig aber nicht unmöglich.
Sie sollten das Verfahren der Auslosung weiterhin überprüfen, da es möglicherweise gegen eine bestimmte Personengruppe gerichtet ist. Sie könnten zusammengekommen sein und einen Bereich der Auslosung mit geringerer Wahrscheinlichkeit (z. B. die erste oder letzte Zahl) oder eine von der Auslosungsprozedur abhängige Variable erhalten haben. Wenn Sie jedoch keinen Fehler in der Prozedur finden, können Sie zu den 1:42 Gewinnchancen zurückkehren, dass es einfach Pech für die Gruppe ist.
quelle