Wie viele zufällig ausgewählte Amerikaner werden benötigt, um eine 50% ige Chance zu haben, dass zwei in demselben oder einem benachbarten Staat leben?

Hintergrund

Ich studiere häufige Zufälle und "nahe" Zufälle, die den Durchschnittsmenschen dennoch (übermäßig) beeindrucken. Die folgende Frage ist eine Erweiterung des berühmten Geburtstagsproblems , bei dem gefragt wird: "Wie viele zufällig ausgewählte Personen werden benötigt, damit eine 50% ige Chance besteht, dass zwei von ihnen denselben Geburtstag haben?" Die Antwort ist . (Es ist tatsächlich etwas niedriger, wenn man die Tatsache berücksichtigt, dass Geburtstage nicht gleichmäßig über das Jahr verteilt sind, sondern in bestimmten Monaten "verklumpen", wodurch die Wahrscheinlichkeit erhöht wird, dass zwei Personen denselben Geburtstag haben.) Wenn man den Zustand entspannt und Wenn der "nahe" Zufall besteht, dass er denselben Geburtstag hat oder sich um einen Tag unterscheidet , sinkt die Antwort auf nur , $23$ $14$

Das Folgende ist eine Erweiterung des Geburtstagsproblems, aber interessanter und komplizierter.

Wie viele Amerikaner, die nach dem Zufallsprinzip ausgewählt wurden, benötigen eine 50% ige Chance, dass zwei von ihnen in a) demselben Bundesstaat oder b) in demselben oder einem angrenzenden Bundesstaat leben?

Angenommen, wir erhalten eine Liste der 50 Staaten mit ihrer Bevölkerung:

${\cal S} = \{ (AL, 4.803M), (AK, 0.738M), (AR, 2.978M), \ldots \}$

sowie eine Adjazenzmatrix (oder ein ungerichteter Graph ), die die Zustandsadjazenzinformationen (einschließlich Selbstadjazenzen) enthält, dh eine Grenze teilen: ${\bf M}$ $g$

$\{ (CA, CA), (CA, WA), (CA, NV), (CA, AZ), (AK, AK), (ME, NH), \ldots \}$ .

Beachten Sie, dass wir dieses Problem durch Berechnung mit bedingten Wahrscheinlichkeiten und ohne Rückgriff auf stochastische Simulationen lösen möchten. Ein derart strenger Ansatz ist prinzipiell und verallgemeinert sich natürlicher auf sehr große Probleme.

Der Ansatz zu a) wird eine Verallgemeinerung des Geburtstagsproblems sein, aber die Antwort zu b) scheint etwas komplizierter zu sein.

Ich suche nur die Gleichungen (und Erklärungen). Ich kann dann die numerischen Werte unter Verwendung von Volkszählungen und geografischen Daten berechnen.

Ich werde hier bemerken, dass durch stochastische Suche die Antwort auf b) eine (vielleicht überraschende) nur 3,5 Personen ist. Bei 4 Personen liegt die Wahrscheinlichkeit bei fast 60%, dass mindestens zwei aus demselben oder einem Nachbarstaat stammen.

conditional-probability combinatorics birthday-paradox David G. Stork
quelle

Ja, 3.5 ist ein sehr überraschendes Ergebnis. Ich hätte gedacht, es wäre eine ganze Zahl.

Mark L. Stone

Ich würde erwarten, dass die Antwort bei . Das Geburtstagsproblem lehrt uns, dass es in der Größenordnung von . Die kleineren Staaten werden jedoch keine große Rolle spielen, so dass die effektive Anzahl der Staaten nur etwa beträgt . Darüber hinaus müssen wir nur Blöcke zusammenhängender Zustände berücksichtigen, die (je nachdem, was Sie unter "benachbart" verstehen) ungefähr Gruppen von etwa Zuständen sein können. Damit haben wir ungefähr "effektive" Zustände mit einer Quadratwurzel von .

3

$3$

\sqrt{50} \approx 7

$\sqrt{50}\approx 7$

25

$25$

5

$5$

10

$10$

3

$3$

whuber

@whuber: "Adjacent" ist streng definiert: Teilen Sie einen Rand.

David G. Stork

Persönlich würde ich einfach simulieren, wenn ich eine Antwort genauer benötigen würde als Whubers Rückseite der Umschlagberechnung. Wenn die Bevölkerungs- und Nachbarschaftsinformationen bereits vorliegen, könnte ich wahrscheinlich eine Reihe von Simulationen durchführen, bevor ich meinen Stift und mein Papier gefunden habe, um zu versuchen, Gleichungen dafür zu schreiben. (Die genaue Zufallsberechnung ist ein bisschen einfacher, aber selbst in diesem Fall würde ich wahrscheinlich sowieso nur simulieren)

Glen_b - Monica

@ David Das mag streng klingen, ist aber nicht eindeutig. Was ist, wenn die Grenze eine imaginäre mitten im Ozean ist? ZB teilen sich Hawaii und Alaska "eine Grenze". Was ist, wenn die "gemeinsame Grenze" ein einzelner Punkt ist, wie im Bereich Four Corners? Wie Sie in Ihrem ursprünglichen Beitrag deutlich gemacht haben, spielen diese Details für die vorliegende Diskussion keine Rolle - sie sind jedoch für bestimmte Berechnungen von Bedeutung.

whuber

Antworten:

Ich beantworte Frage b), weil es allgemeiner ist, und Frage a) kann nur als Sonderfall von b) betrachtet werden, bei dem die Adjazenzmatrix einfach die Identitätsmatrix ist. Ich gebe Ihnen die genaue Methode, obwohl möglicherweise ungefähre Methoden erforderlich sind, da die Berechnung der genauen Lösung schnell mit der Anzahl der Personen skaliert. Ich glaube nicht, dass es eine Lösung gibt, die besser skaliert, aber vielleicht kann mich jemand korrigieren.

Es ist hilfreich, es zu betrachten, indem Sie den expliziten Fall für eine kleine Anzahl von Personen ausführen, mehr hinzufügen und nach dem Muster suchen.

Beginnen wir mit der Wahrscheinlichkeit benachbarter Staaten für zwei beliebige Personen. Die Wahrscheinlichkeit, dass sich die erste Person im Zustand und die zweite Person im Zustand befindet, ist wobei wobei die Anzahl der Personen im Zustand undSie sind benachbart, wenn wobei das te Element der Adjazenzmatrix ist. Somit ist die Wahrscheinlichkeit, dass sie benachbart sind, $i$ $j$

P (i, j) = p_{i} p_{j},

$P(i,j) = p_i p_j,$

p_{l} = S_{l} / N,

$p_l = S_l/N,$

S_{l}

$S_l$

l,

$l,$

N = \sum_{l} S_{l} .

$N=\sum_l S_l.$

M_{i j} = 1,

$M_{i j} = 1,$

M_{i j}

$M_{i j}$

i, j

$i,j$

\begin{aligned} P_{2} & = \sum_{i = 1}^{k} \sum_{j = 1}^{k} P (i, j) M_{i j} \\ = 2 \sum_{i = 1}^{k - 1} \sum_{j = i + 1}^{k} p_{i} p_{j} M_{i j} + \sum_{i = 1}^{k} p_{i}^{2}, \end{aligned}

$\begin{split} P_2 &= \sum_{i=1}^k \sum_{j=1}^k P(i,j) M_{i j} \\ &= 2 \sum_{i=1}^{k-1} \sum_{j=i+1}^k p_i p_j M_{i j} + \sum_{i=1}^k p_i^2, \end{split}$ wobei ich als die Wahrscheinlichkeit definiere, dass es mindestens ein benachbartes Paar in einer Gruppe von Personen gibt, und die Anzahl der Zustände ist. Ich gehe auch davon aus, dass alle diagonalen Elemente von eins sind. Wie beim Geburtstagsproblem ist es jedoch hilfreicher, die Wahrscheinlichkeit zu ermitteln, dass sie nicht benachbart sind,

P_{m}

$P_m$

m

$m$

k

$k$

M

$M$

Q_{2} = 1 - P_{2} = 2 \sum_{i = 1}^{k - 1} \sum_{j = i + 1}^{k} p_{i} p_{j} (1 - M_{i j}) .

$Q_2 = 1-P_2 = 2 \sum_{i=1}^{k-1} \sum_{j=i+1}^k p_i p_j (1 - M_{i j}).$

Schauen wir es uns für Personen an. Es ist leicht zu erkennen, dass Jetzt ist jedoch auch leicht zu erkennen, warum diese Berechnung für eine große Anzahl von Personen unlösbar werden kann. Das Obige kann in Bezug auf nicht berücksichtigt werden, da und in den Summen erscheinen müssen , so dass ein induktiver Prozess, mit dem wir in Bezug auf , aus zu sein scheint der Frage. Es muss explizit für jeden Wert gelöst werden. Wie bei Personen können Sie jedoch im Allgemeinen das obere "rechte Dreieck" des $3$

Q_{3} = \sum_{i, j, l} p_{i} p_{j} p_{l} (1 - M_{i j}) (1 - M_{i l}) (1 - M_{j l}) .

$Q_3 = \sum_{i,j,l} p_i p_j p_l (1 - M_{i j}) (1 - M_{i l}) (1 - M_{j l}).$

Q_{2}

$Q_2$

M_{i l}

$M_{i l}$

M_{j l}

$M_{j l}$

i, j

$i,j$

Q_{m + 1}

$Q_{m+1}$

Q_{m}

$Q_m$

2

$2$

m

$m$ -dimensionale Anordnung möglicher Gruppen von Menschen aus sich gegenseitig ausschließenden Zuständen, wobei der entsprechende Koeffizient angibt, auf wie viele Arten dies geschehen kann. Zum Beispiel gibt es bei drei Personen, bei denen , und alle unterschiedlich sind, Möglichkeiten, wie , und durch die drei Abtastwerte angezeigt werden können.

i

$i$

j

$j$

l

$l$

3! = 6

$3! = 6$

i

$i$

j

$j$

l

$l$

Für Personen gilt Die zweite Zeile reduziert es von einer Summe über Terme auf eine Summe über Terme, die immer noch sehr schlecht skaliert. Außerdem beinhaltet jeder Term ein Produkt über Faktoren. Insgesamt handelt es sich also um eine Berechnung . Wenn wir die Nachbarschaft ignorieren und Frage (a) beantworten, wird sie zu $m$

\begin{aligned} Q_{m} & = \sum_{i_{1} = 1}^{k} \sum_{i_{2} = 1}^{k} \dots \sum_{i_{m} = 1}^{k} (p_{i_{m}} \prod_{j = 1}^{m - 1} p_{i_{j}} \prod_{l = j + 1}^{m} (1 - M_{i_{j}, i_{l}})) \\ = m! \sum_{i_{1} = 1}^{k - m + 1} \sum_{i_{2} = i_{1} + 1}^{k - m + 2} \dots \sum_{i_{m} = i_{m - 1} + 1}^{k} (p_{i_{m}} \prod_{j = 1}^{m - 1} p_{i_{j}} \prod_{l = j + 1}^{m} (1 - M_{i_{j}, i_{l}})) . \end{aligned}

$\begin{split} Q_m &= \sum_{i_1=1}^k \sum_{i_2=1}^k \cdots \sum_{i_m=1}^k \left( p_{i_m} \prod_{j=1}^{m-1} p_{i_j} \prod_{l=j+1}^m (1 - M_{i_j, i_l}) \right) \\ &= m! \sum_{i_1=1}^{k-m+1} \sum_{i_2=i_1+1}^{k-m+2} \cdots \sum_{i_m=i_{m-1}+1}^k \left( p_{i_m} \prod_{j=1}^{m-1} p_{i_j} \prod_{l=j+1}^m (1 - M_{i_j, i_l}) \right). \end{split}$

k^{m}

$k^m$

(\binom{k}{m})

$k \choose m$

m (m + 1) / 2

$m (m+1)/2$

O ((\binom{k}{m}) m^{2})

$O({k \choose m} m^2)$

O ((\binom{k}{m}) m) .

$O({k \choose m} m).$ Aber vielleicht haben Sie Glück und der Wert von für den die Wahrscheinlichkeit zuerst 50% überschreitet, ist sehr gering.

m

$m$

Bridgeburners
quelle

Dies scheint richtig zu sein (wenn auch etwas enttäuschend in seiner Schlussfolgerung). Lassen Sie mich eine Weile nach anderen möglichen Antworten suchen, bevor ich urteile oder akzeptiere ... Danke!

David G. Stork

Es ist möglich, dies mithilfe von Markov-Matrizen zu lösen, um den zufälligen Prozess der Auswahl von Personen zu modellieren. Dieser Ansatz erfordert viel Aufwand bei der Einrichtung, bietet jedoch eine strukturierte Möglichkeit, Ihre Antwort zu erhalten.

Markov-Matrizen werden verwendet, um einen zufälligen Prozess zu modellieren, der sich zwischen diskreten "Zuständen" bewegen kann (um Verwechslungen zwischen US-Bundesstaaten und den Markov-Zuständen zu vermeiden, werde ich Markov-Zustände als "Phasen" bezeichnen).

In diesem Zusammenhang ist die Markov-Phase die Liste aller Staaten, aus denen Sie Amerikaner ausgewählt haben. Wenn der erste Amerikaner beispielsweise aus Washington stammt, ist die Phase {WA}. Wenn der nächste Amerikaner aus Texas stammt, ist die Phase {TX, WA}. Die Reihenfolge, in der Sie Personen ausgewählt haben, ist irrelevant, sodass {TX, WA} dieselbe Phase wie {WA, TX} ist.

Bevor die Probenahme beginnt, beginnen wir in Phase {0}, in der keine Amerikaner ausgewählt wurden. Wir definieren eine einzelne Phase {E} (was "Ende" bedeutet), in der Sie zwei Amerikaner aus benachbarten Staaten ausgewählt haben. Der zufällige Prozess der Auswahl von Amerikanern wird fortgesetzt, bis {E} erreicht ist. Fortsetzung der Phase {TX, WA}: Wenn der nächste Amerikaner aus Oregon stammt, wechselt die Phase zu {E}, da Oregon neben Washington liegt.

{E} ist als "absorbierender Zustand" bekannt, da der zufällige Prozess, sobald er {E} erreicht hat, nicht in eine andere Phase wechseln kann.

Sie müssen eine Liste aller möglichen Phasen erstellen, die auftreten können, bevor Sie {E} erreichen.

Nun müssen Sie die Markov-Matrix für die Wahrscheinlichkeit des Übergangs zwischen Zuständen berechnen . Zunächst sei der Vektor der Wahrscheinlichkeiten für die Probenahme eines Amerikaners aus einem Staat. Dann ist die Chance, jemanden aus Florida auszuwählen. $M$ $P$ $P_{florida}$

Die Einträge in der Markov-Matrix sind die Wahrscheinlichkeit des Übergangs von Phase zu Phase . Der Übergang von {WA} zu {TX, WA} ist beispielsweise . Die Wahrscheinlichkeit eines Übergangs von {WA} zu {E} beträgt . Und die Wahrscheinlichkeit eines Übergangs von {E} zu {E} beträgt 1. $M_{ij}$ $i$ $j$ $P_{Texas}$ $P_{Washington}+P_{Idaho}+P_{Oregon}$

Sie beginnen immer mit der Abtastung ab {0}. Nachdem 1 Amerikaner abgetastet wurde, beträgt die Wahrscheinlichkeit, in {E} zu sein, . Nachdem 2 Amerikaner befragt wurden, beträgt die Wahrscheinlichkeit, in {E} zu sein, (Die Matrix M wird mit sich selbst multipliziert und Sie erhalten die Wahrscheinlichkeit aus Zeile {0) } und Spalte {E}). $M_{\{0\}\{E\}}$ $(MM)_{\{0\}\{E\}}$

Nachdem 3 Amerikaner befragt wurden, beträgt die Wahrscheinlichkeit, in {E} zu sein, . Sie müssen M mit sich selbst multiplizieren, bis die Wahrscheinlichkeit mindestens 50% beträgt $(MMM)_{\{0\}\{E\}}$

Es ist sehr mühsam, zu finden, aber sobald Sie das haben, ist es einfach, das Ergebnis zu erhalten. $M$

Hugh
quelle

Dieser Ansatz scheint fürchterlich schwierig und skalierbar schrecklich. Um eine Kündigung zu gewährleisten, müssen wir möglicherweise Sequenzen von etwa 20 "Phasen" (US-Bundesstaaten) einschließen, von denen es 47 Billionen Sequenzen gibt. Völlig unrealistisch. Darüber hinaus muss explizit geprüft werden, ob bei jedem Schritt eine Beendigung erreicht wurde. Gibt es nicht einen Weg, der der analytischen Lösung des "nahe benachbarten" Geburtstagsproblems näher kommt und sich ausschließlich mit Wahrscheinlichkeiten und bedingten Wahrscheinlichkeiten befasst?

David G. Stork

Wenn in Phase {TX, WA}, wie hoch ist die Wahrscheinlichkeit eines Übergangs zu {TX, NM}, das absorbiert, im Vergleich zu einem Übergang zu {WA, NM}, was nicht der Fall ist? All dies muss in der Definition des Zustandsraums (Phasenraums) eindeutig sein. Edit: vielleicht macht @David G. Stork einen ähnlichen Punkt.

Mark L. Stone

@Hugh: Warum ist "Die Wahrscheinlichkeit eines Übergangs von {WA} zu {E} ist "? Wenn Sie beispielsweise bereits in {WA} sind, warum spielt die Wahrscheinlichkeit Rolle? Und warum die Summe, nicht das Produkt?

P_{W a s h i n g t o n} + P_{I d a h o} + P_{O r e g o n}

$P_{Washington} + P_{Idaho} + P_{Oregon}$

P_{W a s h i n g t o n}

$P_{Washington}$

David G. Stork

@ DavidG.Stork Ihre zweite Frage ist vermutlich, weil dies die an WA angrenzenden Staaten sind und die Ziehungen unabhängig sind. Wenn wir also einen dieser Staaten auswählen, sind wir fertig. Aber ja, die Anzahl der Markov-Phasen hier wird lächerlich groß sein.

Dougal

@ DavidG.Stork Wie Dougal sagt, endet die Stichprobe, wenn Sie die zweite Person aus einem an die erste angrenzenden Staat (Washington) auswählen, um die Wahrscheinlichkeiten jedes einzelnen an Washington angrenzenden Staates zusammenzufassen.

Hugh