Ich bin ein Statistik-Neuling, also entschuldige mich im Voraus, wenn ich eine Kopffrage stelle. Ich habe nach Antworten auf meine Frage gesucht, aber ich finde, dass viele der Themen entweder zu spezifisch sind oder schnell über das hinausgehen, was ich derzeit verstehe.
Ich habe einige Simulationsarbeiten, die große Datensätze enthalten, deren vollständige Simulation nicht mehr möglich ist. Für den kleinsten meiner Datensätze zeigt ein umfassender Lauf die folgende Verteilung der Ergebnisse von insgesamt 9180900 Tests.
Ergebnis / Häufigkeit:
- 0 7183804
- 1 1887089
- 2 105296
- 3 4571
- 4 140
Was die Zahlen bedeuten, spielt keine Rolle; Was zählt, ist, dass die größeren Datensätze, die ich habe, sich auf Milliarden von Tests erstrecken können und viel zu zeitaufwändig werden, um ausgeführt zu werden. Ich muss die Arbeitsbelastung einschränken.
Ich denke, ich sollte in der Lage sein, aus dem gesamten Satz von Tests eine Stichprobe zu erstellen, um eine Verteilung für die Stichprobe abzuleiten, und (innerhalb einiger Grenzen) schließen, dass die Ergebnisse einer erschöpfenden Simulation ungefähr dieselbe Verteilung aufweisen würden. Den durchgeführten Tests ist keine Verzerrung inhärent, daher sollte eine einheitliche zufällige Auswahl der Eingaben eine gültige Stichprobe liefern.
Was ich noch nicht verstehe, ist, wie ich meine Stichprobengröße auswählen soll. Insbesondere die Verteilung weist einen seltsamen Schwanz auf, und ich befürchte, dass eine zu kleine Abtastung die niedrigeren Frequenzen verliert. (Die 140 Vorkommen von '4' machen nur 0,0015% der Bevölkerung aus!)
Meine Frage ist also, wie lässt sich eine Stichprobengröße am besten berechnen, mit der ich ein gewisses Maß an Güte in meinen Ergebnissen behaupten kann?
Oder stelle ich die falsche Frage?
Ich denke, dass die Leistungsanalyse zu aufwendig für das ist, was Sie versuchen, und Sie möglicherweise im Stich lässt.
Mit einer Stichprobengröße nördlich von 9 Millionen halte ich Ihre Schätzung für
p = Pr(X > 3) = 0.000015
ziemlich genau. Sie können dies also in einem einfachen Binomialmodell (n, p) verwenden, um eine Stichprobengröße zu schätzen.Angenommen, Ihr Ziel ist es, mindestens ein "großes" Ereignis mit einer Wahrscheinlichkeit von 99,9% zu beobachten. Dann ist
Pr(L > 0) = 1 - Pr(L = 0) = 1 - 0.999985^n = 0.999
Ihre gewünschte Stichprobengrößen = ln(0.001)/ln(0.999985) = 460514
.Wenn Sie Glück haben und bereit sind, eine 10% ige Chance zu nutzen, ein großes Ereignis zu verpassen, benötigen Sie natürlich nur eine Stichprobengröße von n = 153505. Durch Verdreifachen der Stichprobengröße wird die Wahrscheinlichkeit, dass Sie das große Ereignis verpassen, um einen Faktor verringert von 100, also würde ich für die 460.000 gehen.
ABER ... wenn Sie nach FÜNF suchen, liegt ihre Wahrscheinlichkeit südlich von 1/9180902 und um mindestens eine davon mit einer Wahrscheinlichkeit von 99,9% zu beobachten, benötigen Sie eine Stichprobengröße von etwa 63,4 Millionen!
Beachten Sie die Ratschläge von DrKNexus zur Aktualisierung Ihrer Schätzung der Wahrscheinlichkeiten für die Großereignisse, da diese möglicherweise nicht in allen Datensätzen konstant sind.
quelle