Ist es möglich, die Wahrscheinlichkeit zu berechnen oder zu approximieren, dass etwas äußerst Unwahrscheinliches einmal über eine große Stichprobe hinweg passiert, dh in Situationen, in denen die Wahrscheinlichkeit kleiner als der Maschinenfehler ist?
Ich habe zum Beispiel versucht, die ungefähre Wahrscheinlichkeit zu berechnen, dass jemand mein Genom teilt. Anscheinend kann ein einzelnes Genom verlustfrei auf etwa 4 MB (2 ^ 25 Bit) komprimiert werden . Die Chance, dass einer der ~ 7 Milliarden Menschen auf dem Planeten mein Genom teilt, ist also ungefähr:
.
Bei Verwendung der Geburtstagsproblemmethode ist die Wahrscheinlichkeit, dass mindestens zwei Personen mit identischen Genomen anwesend sind (lassen Sie uns Zwillinge usw. ignorieren), ungefähr so:
Das Problem hierbei ist, dass die Zahlen so klein oder so groß sind, dass man nicht grob erraten kann, wo sie liegen würden. Gibt es also eine Möglichkeit, diese oder ähnliche Berechnungen zu approximieren?
Mir ist klar, dass in einigen Fällen die Annahmen hinter den Problemen um mehrere Größenordnungen liegen könnten, aber es wäre interessant, sich sogar "wahrscheinlicher als nicht" annähern zu können.
quelle
Antworten:
In der Physik ist ein Fermi-Problem eine Übung, bei der Sie aufgefordert werden, eine Größenordnung abzuschätzen. Sie können dasselbe für Wahrscheinlichkeiten tun. Mit der Übung sollte sich Ihre Intuition verbessern.
Wie Xi'an kommentierte, können Sie Logarithmen verwenden. Vielleicht können Sie auf einen Blick sehen, aber Sie können (oder ) sehen. was es impliziert. 2 25 ≫ 10 10 log 2 10 ≈ 332225≫ 1010 225≫10 10log210≈33
Verwenden Sie Schätzungen, die einfach zu berechnen sind, anstatt komplizierte Formeln zu verwenden, um genaue Werte zu berechnen, die Sie nicht benötigen. Zum Beispiel ist die Wahrscheinlichkeit, dass mindestens eine andere Person mit Ihrem Genom vorhanden ist (Zwillinge werden ignoriert), höchstens die erwartete Anzahl von Personen mit demselben Genom, ein einfaches Produkt die Sie als sehr klein einschätzen können sollten. In ähnlicher Weise ist die Wahrscheinlichkeit, dass ein Personenpaar das gleiche Genom hat, höchstens die erwartete Anzahl von Personenpaaren mit dem gleichen Genom12225(7×109)
Übrigens akzeptiere ich dieses Wahrscheinlichkeitsmodell für das Genom nicht. Ich habe Ihr Modell nur als Beispiel verwendet. Dieses Modell würde vorhersagen, dass die genetische Ähnlichkeit, die typischerweise zwischen Geschwistern gefunden wird, astronomisch unwahrscheinlich ist.
quelle
Ich denke, dies stellt ein Problem dar, die extremen Schwänze einer Wahrscheinlichkeitsverteilung ohne die extrem große Stichprobengröße zu schätzen, die erforderlich ist, um eine oder nur wenige wenige Werte zu erhalten, die bei diesen Extremwerten beobachtet werden. Der einzige Weg, dies zu tun, besteht darin, ein parametrisches Modell anzunehmen, das "automatisch" eine Form für die Verteilungsschwänze annimmt. Wenn Sie jedoch eine Begründung für das Wahrscheinlichkeitsmodell haben, können Sie die gewünschten Schätzungen erhalten, indem Sie die Dichte aus der parametrischen Familie anpassen und sie zur Integration über den Endbereich verwenden, um diese kleine Wahrscheinlichkeit zu schätzen. Wenn die parametrische Annahme falsch ist, könnte die Schätzung weit entfernt sein (um Größenordnungen).
quelle