Hintergrund
Ich studiere häufige Zufälle und "nahe" Zufälle, die den Durchschnittsmenschen dennoch (übermäßig) beeindrucken. Die folgende Frage ist eine Erweiterung des berühmten Geburtstagsproblems , bei dem gefragt wird: "Wie viele zufällig ausgewählte Personen werden benötigt, damit eine 50% ige Chance besteht, dass zwei von ihnen denselben Geburtstag haben?" Die Antwort ist . (Es ist tatsächlich etwas niedriger, wenn man die Tatsache berücksichtigt, dass Geburtstage nicht gleichmäßig über das Jahr verteilt sind, sondern in bestimmten Monaten "verklumpen", wodurch die Wahrscheinlichkeit erhöht wird, dass zwei Personen denselben Geburtstag haben.) Wenn man den Zustand entspannt und Wenn der "nahe" Zufall besteht, dass er denselben Geburtstag hat oder sich um einen Tag unterscheidet , sinkt die Antwort auf nur ,
Das Folgende ist eine Erweiterung des Geburtstagsproblems, aber interessanter und komplizierter.
Wie viele Amerikaner, die nach dem Zufallsprinzip ausgewählt wurden, benötigen eine 50% ige Chance, dass zwei von ihnen in a) demselben Bundesstaat oder b) in demselben oder einem angrenzenden Bundesstaat leben?
Angenommen, wir erhalten eine Liste der 50 Staaten mit ihrer Bevölkerung:
sowie eine Adjazenzmatrix (oder ein ungerichteter Graph ), die die Zustandsadjazenzinformationen (einschließlich Selbstadjazenzen) enthält, dh eine Grenze teilen:
.
Beachten Sie, dass wir dieses Problem durch Berechnung mit bedingten Wahrscheinlichkeiten und ohne Rückgriff auf stochastische Simulationen lösen möchten. Ein derart strenger Ansatz ist prinzipiell und verallgemeinert sich natürlicher auf sehr große Probleme.
Der Ansatz zu a) wird eine Verallgemeinerung des Geburtstagsproblems sein, aber die Antwort zu b) scheint etwas komplizierter zu sein.
Ich suche nur die Gleichungen (und Erklärungen). Ich kann dann die numerischen Werte unter Verwendung von Volkszählungen und geografischen Daten berechnen.
Ich werde hier bemerken, dass durch stochastische Suche die Antwort auf b) eine (vielleicht überraschende) nur 3,5 Personen ist. Bei 4 Personen liegt die Wahrscheinlichkeit bei fast 60%, dass mindestens zwei aus demselben oder einem Nachbarstaat stammen.
quelle
Antworten:
Ich beantworte Frage b), weil es allgemeiner ist, und Frage a) kann nur als Sonderfall von b) betrachtet werden, bei dem die Adjazenzmatrix einfach die Identitätsmatrix ist. Ich gebe Ihnen die genaue Methode, obwohl möglicherweise ungefähre Methoden erforderlich sind, da die Berechnung der genauen Lösung schnell mit der Anzahl der Personen skaliert. Ich glaube nicht, dass es eine Lösung gibt, die besser skaliert, aber vielleicht kann mich jemand korrigieren.
Es ist hilfreich, es zu betrachten, indem Sie den expliziten Fall für eine kleine Anzahl von Personen ausführen, mehr hinzufügen und nach dem Muster suchen.
Beginnen wir mit der Wahrscheinlichkeit benachbarter Staaten für zwei beliebige Personen. Die Wahrscheinlichkeit, dass sich die erste Person im Zustand und die zweite Person im Zustand befindet, ist wobei wobei die Anzahl der Personen im Zustand undSie sind benachbart, wenn wobei das te Element der Adjazenzmatrix ist. Somit ist die Wahrscheinlichkeit, dass sie benachbart sind,i j
Schauen wir es uns für Personen an. Es ist leicht zu erkennen, dass Jetzt ist jedoch auch leicht zu erkennen, warum diese Berechnung für eine große Anzahl von Personen unlösbar werden kann. Das Obige kann in Bezug auf nicht berücksichtigt werden, da und in den Summen erscheinen müssen , so dass ein induktiver Prozess, mit dem wir in Bezug auf , aus zu sein scheint der Frage. Es muss explizit für jeden Wert gelöst werden. Wie bei Personen können Sie jedoch im Allgemeinen das obere "rechte Dreieck" des3
Für Personen gilt Die zweite Zeile reduziert es von einer Summe über Terme auf eine Summe über Terme, die immer noch sehr schlecht skaliert. Außerdem beinhaltet jeder Term ein Produkt über Faktoren. Insgesamt handelt es sich also um eine Berechnung . Wenn wir die Nachbarschaft ignorieren und Frage (a) beantworten, wird sie zum
quelle
Es ist möglich, dies mithilfe von Markov-Matrizen zu lösen, um den zufälligen Prozess der Auswahl von Personen zu modellieren. Dieser Ansatz erfordert viel Aufwand bei der Einrichtung, bietet jedoch eine strukturierte Möglichkeit, Ihre Antwort zu erhalten.
Markov-Matrizen werden verwendet, um einen zufälligen Prozess zu modellieren, der sich zwischen diskreten "Zuständen" bewegen kann (um Verwechslungen zwischen US-Bundesstaaten und den Markov-Zuständen zu vermeiden, werde ich Markov-Zustände als "Phasen" bezeichnen).
In diesem Zusammenhang ist die Markov-Phase die Liste aller Staaten, aus denen Sie Amerikaner ausgewählt haben. Wenn der erste Amerikaner beispielsweise aus Washington stammt, ist die Phase {WA}. Wenn der nächste Amerikaner aus Texas stammt, ist die Phase {TX, WA}. Die Reihenfolge, in der Sie Personen ausgewählt haben, ist irrelevant, sodass {TX, WA} dieselbe Phase wie {WA, TX} ist.
Bevor die Probenahme beginnt, beginnen wir in Phase {0}, in der keine Amerikaner ausgewählt wurden. Wir definieren eine einzelne Phase {E} (was "Ende" bedeutet), in der Sie zwei Amerikaner aus benachbarten Staaten ausgewählt haben. Der zufällige Prozess der Auswahl von Amerikanern wird fortgesetzt, bis {E} erreicht ist. Fortsetzung der Phase {TX, WA}: Wenn der nächste Amerikaner aus Oregon stammt, wechselt die Phase zu {E}, da Oregon neben Washington liegt.
{E} ist als "absorbierender Zustand" bekannt, da der zufällige Prozess, sobald er {E} erreicht hat, nicht in eine andere Phase wechseln kann.
Sie müssen eine Liste aller möglichen Phasen erstellen, die auftreten können, bevor Sie {E} erreichen.
Nun müssen Sie die Markov-Matrix für die Wahrscheinlichkeit des Übergangs zwischen Zuständen berechnen . Zunächst sei der Vektor der Wahrscheinlichkeiten für die Probenahme eines Amerikaners aus einem Staat. Dann ist die Chance, jemanden aus Florida auszuwählen.M P Pflorida
Die Einträge in der Markov-Matrix sind die Wahrscheinlichkeit des Übergangs von Phase zu Phase . Der Übergang von {WA} zu {TX, WA} ist beispielsweise . Die Wahrscheinlichkeit eines Übergangs von {WA} zu {E} beträgt . Und die Wahrscheinlichkeit eines Übergangs von {E} zu {E} beträgt 1.Mij i j PTexas PWashington+PIdaho+POregon
Sie beginnen immer mit der Abtastung ab {0}. Nachdem 1 Amerikaner abgetastet wurde, beträgt die Wahrscheinlichkeit, in {E} zu sein, . Nachdem 2 Amerikaner befragt wurden, beträgt die Wahrscheinlichkeit, in {E} zu sein, (Die Matrix M wird mit sich selbst multipliziert und Sie erhalten die Wahrscheinlichkeit aus Zeile {0) } und Spalte {E}).M{0}{E} (MM){0}{E}
Nachdem 3 Amerikaner befragt wurden, beträgt die Wahrscheinlichkeit, in {E} zu sein, . Sie müssen M mit sich selbst multiplizieren, bis die Wahrscheinlichkeit mindestens 50% beträgt(MMM){0}{E}
Es ist sehr mühsam, zu finden, aber sobald Sie das haben, ist es einfach, das Ergebnis zu erhalten.M
quelle