Wie berechnet man mit winzigen Wahrscheinlichkeiten und großen Stichproben?

8

Ist es möglich, die Wahrscheinlichkeit zu berechnen oder zu approximieren, dass etwas äußerst Unwahrscheinliches einmal über eine große Stichprobe hinweg passiert, dh in Situationen, in denen die Wahrscheinlichkeit kleiner als der Maschinenfehler ist?

Ich habe zum Beispiel versucht, die ungefähre Wahrscheinlichkeit zu berechnen, dass jemand mein Genom teilt. Anscheinend kann ein einzelnes Genom verlustfrei auf etwa 4 MB (2 ^ 25 Bit) komprimiert werden . Die Chance, dass einer der ~ 7 Milliarden Menschen auf dem Planeten mein Genom teilt, ist also ungefähr:

(112225)(7×109).

Bei Verwendung der Geburtstagsproblemmethode ist die Wahrscheinlichkeit, dass mindestens zwei Personen mit identischen Genomen anwesend sind (lassen Sie uns Zwillinge usw. ignorieren), ungefähr so:

(7×109)!(22257×109)(2225)(7×109)

Das Problem hierbei ist, dass die Zahlen so klein oder so groß sind, dass man nicht grob erraten kann, wo sie liegen würden. Gibt es also eine Möglichkeit, diese oder ähnliche Berechnungen zu approximieren?

Mir ist klar, dass in einigen Fällen die Annahmen hinter den Problemen um mehrere Größenordnungen liegen könnten, aber es wäre interessant, sich sogar "wahrscheinlicher als nicht" annähern zu können.

naught101
quelle
2
Logarithmen sind unter solchen Umständen angemessen, und wenn dies nicht ausreicht, bringt Sie die Stirling-Näherung nahe genug an den tatsächlichen Wert, um die Größe der Größe zu bewerten.
Xi'an

Antworten:

8

In der Physik ist ein Fermi-Problem eine Übung, bei der Sie aufgefordert werden, eine Größenordnung abzuschätzen. Sie können dasselbe für Wahrscheinlichkeiten tun. Mit der Übung sollte sich Ihre Intuition verbessern.

Wie Xi'an kommentierte, können Sie Logarithmen verwenden. Vielleicht können Sie auf einen Blick sehen, aber Sie können (oder ) sehen. was es impliziert. 2 2510 10 log 2 10 33222510102251010log21033

Verwenden Sie Schätzungen, die einfach zu berechnen sind, anstatt komplizierte Formeln zu verwenden, um genaue Werte zu berechnen, die Sie nicht benötigen. Zum Beispiel ist die Wahrscheinlichkeit, dass mindestens eine andere Person mit Ihrem Genom vorhanden ist (Zwillinge werden ignoriert), höchstens die erwartete Anzahl von Personen mit demselben Genom, ein einfaches Produkt die Sie als sehr klein einschätzen können sollten. In ähnlicher Weise ist die Wahrscheinlichkeit, dass ein Personenpaar das gleiche Genom hat, höchstens die erwartete Anzahl von Personenpaaren mit dem gleichen Genom12225(7×109)

12(7×109)22225

Übrigens akzeptiere ich dieses Wahrscheinlichkeitsmodell für das Genom nicht. Ich habe Ihr Modell nur als Beispiel verwendet. Dieses Modell würde vorhersagen, dass die genetische Ähnlichkeit, die typischerweise zwischen Geschwistern gefunden wird, astronomisch unwahrscheinlich ist.

Douglas Zare
quelle
Ja, ich weiß, dass das Modell falsch ist. Aber Nicht-Zwillingsgeschwister teilen wahrscheinlich nur etwa die Hälfte ihrer Gene (abgesehen von denen, die allen Menschen gemeinsam sind), daher bin ich mir nicht sicher, was Sie unter genetischer Ähnlichkeit zwischen Geschwistern
verstehen
Ich bin mir nicht sicher, was Sie mit "ungefähr der Hälfte" meinen, da das Genom komprimiert werden soll. Es gibt Orte, an denen es Möglichkeiten gibt, und Orte, an denen es mehr als . Wie auch immer, die Orte, an denen sie keine Kopie des Chromosoms desselben Elternteils haben, können ohnehin zufällig gleich sein, so dass mehr als die Hälfte ihrer Gene gleich sein sollten, und wenn Sie so tun, als wäre jedes Genom zufällig, werden Sie schätzen dass die Chance dafür astronomisch gering ist. Angenommen, es gibt keine Frequenzweichen. Dann müssen Geschwister nur Münzwürfe gewinnen, um das gleiche Genom zu haben, nicht . 2 46 2 252246225
Douglas Zare
Interessantes, aber das ist alles ein bisschen tangential zu der Frage, für die mein übermäßig vereinfachtes Modell nur ein grundlegendes Beispiel war. Wenn Sie die
Genetikdiskussion fortsetzen möchten
1
Das ist alles Grundmaterial. Ich wollte nur nicht die Berechnungen in diesem Modell zeigen, ohne darauf hinzuweisen, dass das Modell schlecht ist.
Douglas Zare
3

Ich denke, dies stellt ein Problem dar, die extremen Schwänze einer Wahrscheinlichkeitsverteilung ohne die extrem große Stichprobengröße zu schätzen, die erforderlich ist, um eine oder nur wenige wenige Werte zu erhalten, die bei diesen Extremwerten beobachtet werden. Der einzige Weg, dies zu tun, besteht darin, ein parametrisches Modell anzunehmen, das "automatisch" eine Form für die Verteilungsschwänze annimmt. Wenn Sie jedoch eine Begründung für das Wahrscheinlichkeitsmodell haben, können Sie die gewünschten Schätzungen erhalten, indem Sie die Dichte aus der parametrischen Familie anpassen und sie zur Integration über den Endbereich verwenden, um diese kleine Wahrscheinlichkeit zu schätzen. Wenn die parametrische Annahme falsch ist, könnte die Schätzung weit entfernt sein (um Größenordnungen).

Michael R. Chernick
quelle
Schön, ich hatte es nicht so gesehen. Ich habe jedoch keine Ahnung, welche Art von Modell ich für diese Art von Problem verwenden würde.
naught101