Wie groß ist die Wahrscheinlichkeit, dass sich n Personen aus einer Liste von m Personen in einer zufälligen Auswahl von x Personen aus einer Liste von y Personen befinden?

10

Wenn ich 232 Personen aus einem Pool von 363 ersatzlosen Personen auswähle, wie hoch ist die Wahrscheinlichkeit, dass 2 einer Liste von 12 bestimmten Personen in dieser Auswahl enthalten sind?

Dies ist eine zufällige Auslosung für ein Ultra-Rennen, bei dem 363 Teilnehmer für 232 Plätze anwesend waren. Es gibt ein Argument darüber, ob die Auswahl gegen eine bestimmte Gruppe von 12 Personen voreingenommen war.

Mein erster Versuch, dies zu berechnen, war, dass 232 363 mögliche Auswahlen ausgewählt wurden. Die Anzahl der Kombinationen einer Person aus der Liste der Zwölf ist 1 wählen 12 + 2 wählen 12 + ... + 11 wählen 12 + 12 wählen 12. Also 1 wählen 12 + 2 wählen 12 .... / 232 wählen 363 Das ist eine sehr niedrige Zahl, die eindeutig zu niedrig ist.

Wie berechne ich das?

combinatorics randomness hypergeometric Sarge
quelle

1

Zwei technische Punkte. Erstens haben Sie es jetzt eher mit einer Wahrscheinlichkeit als mit einer Wahrscheinlichkeit zu tun, da das Ergebnis bekannt ist. Zweitens spielt es keine Rolle, wie hoch die theoretische Wahrscheinlichkeit ist, vorausgesetzt, Sie haben ein Ergebnis. Ich denke, es wäre besser, sich der Auswahlmethode zu nähern: Wie wurden die Auswahlen ausgewählt? Sie müssen die Richtigkeit der Methode und nicht die Richtigkeit des Ergebnisses nachweisen.

Michelle

1

Man würde dies als eine Wahrscheinlichkeit betrachten, Michelle, um Auswahlwahrscheinlichkeiten abzuschätzen. Dies scheint hier nicht der Fall zu sein.

whuber

Bei der einfachen Berechnung des hypergeometrischen Wohnmobils müssen Sie vorsichtig sein, da die 12 Personen, die sich beschweren, nicht zufällig ausgewählt werden. Sie beschweren sich, weil sie nicht ausgewählt wurden.

Guy

10

Ich interpretiere die Frage folgendermaßen: Angenommen, die Probenahme wurde angeblich so durchgeführt, als würden weiße Papiertickets in ein Glas gegeben, das jeweils mit dem Namen einer Person beschriftet ist, und wurden nach gründlichem Rühren des Glasinhalts zufällig herausgenommen. Zuvor waren der Tickets rot gefärbt. Wie groß ist die Wahrscheinlichkeit, dass genau zwei der ausgewählten Tickets rot sind? Wie groß ist die Wahrscheinlichkeit, dass höchstens zwei der Tickets rot sind? $363$ $232$ $12$

Eine genaue Formel kann erhalten werden, aber wir müssen nicht so viel theoretische Arbeit leisten. Stattdessen verfolgen wir nur die Chancen, wenn die Tickets aus dem Glas gezogen werden. Zu dem Zeitpunkt, an dem von ihnen zurückgezogen wurden, soll die Chance, dass genau rote Tickets gesehen wurden, . Beachten Sie zunächst, dass wenn (Sie können keine roten Tickets haben, bevor Sie beginnen) und (es ist sicher, dass Sie keine roten Tickets haben am Anfang). Bei der letzten Ziehung war das Ticket entweder rot oder nicht. Im ersten Fall hatten wir zuvor die Chance , genau $m$ $i$ $p(i,m)$ $p(i,0)=0$ $i\gt 0$ $p(0,0)=1$ $p(i-1,m-1)$ $i-1$ rote Tickets. Wir dann geschahen dann einen roten von den übrigen ziehen Tickets, so dass es genau rot bisher Tickets. Da wir davon ausgehen, dass alle Tickets in jeder Phase die gleichen Chancen haben, betrug unsere Chance, auf diese Weise ein Rot zu ziehen, . Im anderen Fall hatten wir die Chance , genau rote Tickets in den vorherigen Ziehungen zu erhalten, und die Chance , der Stichprobe bei der nächsten Ziehung kein weiteres rotes Ticket hinzuzufügen, war $363 - m + 1$ $i$ $(12-i+1) / (363 - m + 1)$ $p(i,m-1)$ $i$ $m-1$ $(363 - m + 1 - 12 + i) / (363 - m + 1)$ . Woher, unter Verwendung grundlegender Wahrscheinlichkeitsaxiome (dh die Chancen zweier sich gegenseitig ausschließender Fälle addieren sich und die bedingten Chancen multiplizieren sich),

p (i, m) = \frac{p (i - 1, m - 1) (12 - i + 1) + p (i, m - 1) (363 - m + 1 - 12 + i)}{363 - m + 1} .

$p(i,m) = \frac{p(i-1,m-1) (12-i+1) + p(i,m-1) (363 - m + 1 - 12 + i)}{363 - m + 1}.$

Wir wiederholen diese Berechnung rekursiv und legen ein dreieckiges Array der Werte von für und . Nach einer kleinen Berechnung erhalten wir und und beantworten beide Versionen der Frage. Dies sind kleine Zahlen: Egal wie Sie es betrachten, es sind ziemlich seltene Ereignisse (seltener als eins zu tausend). $p(i,m)$ $0\le i\le 12$ $0 \le m \le 232$ $p(2,232) \approx 0.000849884$ $p(0,232)+p(1,232)+p(2,232)\approx 0.000934314$

Zur Überprüfung habe ich diese Übung 1.000.000 Mal mit einem Computer durchgeführt. In 932 = 0,000932 dieser Experimente wurden 2 oder weniger rote Tickets beobachtet. Dies liegt sehr nahe am berechneten Ergebnis, da die Stichprobenschwankung im erwarteten Wert von 934,3 etwa 30 (nach oben oder unten) beträgt. So wird die Simulation in R durchgeführt:

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

Dieses Mal änderten sich die Ergebnisse ein wenig, da die Experimente zufällig waren: In 948 der Millionen Versuche wurden zwei oder weniger rote Tickets beobachtet. Das stimmt immer noch mit dem theoretischen Ergebnis überein.)

Die Schlussfolgerung ist, dass es höchst unwahrscheinlich ist, dass zwei oder weniger der 232 Tickets rot sind. Wenn Sie tatsächlich eine Stichprobe von 232 von 363 Personen haben, ist dieses Ergebnis ein starker Hinweis darauf, dass das Ticket-in-a-Jar-Modell keine korrekte Beschreibung der Art und Weise ist, wie die Stichprobe erhalten wurde. Alternative Erklärungen umfassen (a) das Herausnehmen der roten Tickets aus dem Glas (eine "Voreingenommenheit" gegen sie) sowie (b) das Färben der Tickets nach Beobachtung der Probe ( Post-hoc- Daten-Snooping) nicht gegebenenfalls im bias).

Ein Beispiel für die Erklärung (b) in Aktion wäre ein Jury-Pool für einen berüchtigten Mordprozess. Angenommen, es umfasste 363 Personen. Aus diesem Pool befragte das Gericht 232 von ihnen. Ein ehrgeiziger Zeitungsreporter überprüft akribisch den Lebenslauf aller im Pool und stellt fest, dass 12 der 363 Goldfischliebhaber waren, aber nur zwei von ihnen wurden interviewt. Ist das Gericht gegen Goldfischzüchter voreingenommen? Wahrscheinlich nicht.

whuber
quelle

NB In der Simulation spielt es keine Rolle, dass die ersten 12 "Tickets" markiert sind, da alle Stichproben zufällig ohne Ersatz (via sample) durchgeführt werden. Tatsächlich werden bei jeder Iteration sampledie Tickets bei jedem Aufruf gründlich gemischt, bevor 232 davon zurückgezogen werden.

whuber

2

Meine Güte - das war nicht das Ergebnis, das ich erwartet hatte. Vielen Dank für Ihre gründliche Arbeit und gute Erklärung. (Seltsamerweise habe ich tatsächlich ein Statistik-Training an der Universität von Auckland durchgeführt, wo R zum ersten Mal entwickelt wurde.)

Sarge

10

@whuber gab eine erschöpfende Erklärung, ich möchte nur darauf hinweisen, dass es eine statistische Standardverteilung gibt, die diesem Szenario entspricht: die hypergeometrische Verteilung. So können Sie solche Wahrscheinlichkeiten direkt in beispielsweise R erhalten:

Wahrscheinlichkeit von genau 2 von 12 ausgewählten:

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

Wahrscheinlichkeit von 2 oder weniger von 12 ausgewählten:

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314

Aniko
quelle

+1 Danke. Ich hätte diesen Zusammenhang erwähnen sollen. Die hypergeometrische Verteilung tritt klassisch in Probenahme-Resampling-Experimenten auf. Die 12 spezifischen Personen (meine "roten Tickets") sind wie Fische, die gefangen, markiert und zurück in den Pool geworfen wurden. Die Stichprobe von 232 ist wie die Menge der Fische, die anschließend gefangen werden. Die hypergeometrische Verteilung beschreibt die Häufigkeit von wieder gefangenen Fischen.

whuber

0

Die Chancen sind viel höher als mit der einfachen hypergeometrischen Verteilung berechnet, da die Gruppe nicht zufällig ausgewählt wird ( "12 Fische werden vor der Auslosung rot gestrichen" ).

Aus der Beschreibung der Frage geht hervor, ob die Auslosung einen Betrug aufweist. Eine bestimmte Gruppe von 12 Personen beschwerte sich, dass nur 2 von ihnen ausgewählt wurden, während die erwartete Anzahl 232/363 ~ 2/3 = 8 betrug.

Was wir wirklich berechnen müssen, ist die Wahrscheinlichkeit, dass " keine Gruppe der Größe 12 nur 2 Mitglieder ausgewählt hat". Die Wahrscheinlichkeit, dass mindestens eine Gruppe 2 oder weniger hat (daher wird sie sich über die Fairness der Auslosung beschweren), ist viel höher.

Wenn ich diese Simulation durchführe und überprüfe, wie viele der Versuche keine der 30 (= 360/12) Gruppen 2 oder weniger Auswahlen hatte, erhalte ich ungefähr 2,3% der Fälle. 1:42 ist niedrig aber nicht unmöglich.

Sie sollten das Verfahren der Auslosung weiterhin überprüfen, da es möglicherweise gegen eine bestimmte Personengruppe gerichtet ist. Sie könnten zusammengekommen sein und einen Bereich der Auslosung mit geringerer Wahrscheinlichkeit (z. B. die erste oder letzte Zahl) oder eine von der Auslosungsprozedur abhängige Variable erhalten haben. Wenn Sie jedoch keinen Fehler in der Prozedur finden, können Sie zu den 1:42 Gewinnchancen zurückkehren, dass es einfach Pech für die Gruppe ist.

Kerl
quelle

Ein guter Punkt, ABER (a) sicherlich hat nicht jede mögliche Gruppe von 12 genug Ähnlichkeit mit Materie, und (b) nicht alle Gruppen, die genug Ähnlichkeit mit Materie haben, haben genau 12 Mitglieder.

Radfahrer

@zbicyclist, ich behaupte nicht, dass die Berechnung korrekt ist. Ich wollte einen begründeten Zweifel (da wir uns im Bereich des Gesetzes mit Betrugserkennung befinden) äußern, dass die Auslosung nicht schuldig ist.

Guy

Wie groß ist die Wahrscheinlichkeit, dass sich n Personen aus einer Liste von m Personen in einer zufälligen Auswahl von x Personen aus einer Liste von y Personen befinden?

Antworten: