Was sind einige wichtige Verwendungen der Zufallszahlengenerierung in der Rechenstatistik?

Wie und warum sind Zufallszahlengeneratoren (Random Number Generators, RNGs) in der Rechenstatistik wichtig?

Ich verstehe, dass die Zufälligkeit bei der Auswahl von Stichproben für viele statistische Tests wichtig ist, um Verzerrungen in Bezug auf beide Hypothesen zu vermeiden. Gibt es jedoch andere Bereiche der Rechenstatistik, in denen Zufallszahlengeneratoren wichtig sind?

hypothesis-testing monte-carlo algorithms random-generation computational-statistics Patrick
quelle

Eng verbunden: stats.stackexchange.com/q/135665/35989

Tim

Was fragst du? Ihre Frage macht nicht wirklich viel Sinn.

Carl Witthoft

Es könnte besser sein, nach Bereichen zu fragen, in denen sie nicht wichtig sind. Es wäre wahrscheinlich eine kürzere Liste.

John Coleman

Die Frage ist breit, aber der Titel ist ansprechend und Matthews Antwort ist eine schöne Übersicht. Ich habe für die Wiedereröffnung gestimmt!

Benoit Sanchez

Dies ist im Vergleich zu herkömmlichen SE-Standards eindeutig zu weit gefasst und stellt eine große Frage dar, die wahrscheinlich viele kleine, kaum ausgearbeitete Antworten liefert, die häufig bereits gegebene Antworten duplizieren. Hier scheint es jedoch einen echten Wert zu geben. Ein Kompromiss ist, dass dies CW & geschützt ist. In Zukunft werden Antworten, die etwas Unausgearbeitetes und / oder bereits erwähnte doppelte Verwendungen erwähnen, unverzüglich und ohne Kommentar gelöscht.

gung - Reinstate Monica

Antworten:

Es gibt viele, viele Beispiele. Viel zu viele, um sie aufzulisten, und wahrscheinlich zu viele, um sie vollständig zu kennen (außer möglicherweise @whuber, der niemals unterschätzt werden sollte).

Wie Sie bereits erwähnt haben, in kontrollierten Experimenten vermeiden wir Stichprobenverzerrungen, indem wir die Probanden zufällig in Behandlungs- und Kontrollgruppen aufteilen.

Beim Bootstrapping wir die wiederholte Stichprobe aus einer Population durch zufällige Stichprobe mit Ersatz aus einer festen Stichprobe. So können wir unter anderem die Varianz unserer Schätzungen abschätzen.

In Kreuzvalidierung schätzen wir den Fehler einer Schätzung außerhalb der Stichprobe, indem wir unsere Daten zufällig in Segmente unterteilen und zufällige Trainings- und Testsätze zusammenstellen.

In Permutationstests wir zufällige Permutationen, um eine Stichprobe unter der Nullhypothese zu erstellen, sodass nichtparametrische Hypothesentests in einer Vielzahl von Situationen durchgeführt werden können.

Beim Absacken steuern wir die Varianz einer Schätzung, indem wir wiederholt eine Schätzung der Bootstrap-Stichproben von Trainingsdaten durchführen und dann die Ergebnisse mitteln.

In zufälligen Wäldern steuern wir die Varianz einer Schätzung weiter, indem wir an jedem Entscheidungspunkt auch eine zufällige Stichprobe aus den verfügbaren Prädiktoren ziehen.

In der Simulation bitten wir ein Anpassungsmodell, zufällig neue Datensätze zu generieren, die wir mit Trainings- oder Testdaten vergleichen können, um die Anpassung und Annahmen in einem Modell zu validieren.

In Markov Kette Monte Carlo wir anhand einer Markov-Kette den Raum möglicher Ergebnisse (danke an @Ben Bolker für dieses Beispiel).

Das sind nur die alltäglichen Anwendungen, die einem sofort in den Sinn kommen. Wenn ich tief grabe, könnte ich wahrscheinlich die Länge dieser Liste verdoppeln. Zufälligkeit ist sowohl ein wichtiges Untersuchungsobjekt als auch ein wichtiges Werkzeug.

Matthew Drury
quelle

Dies ist alles wahr, behebt aber nicht das Hauptproblem: Ein PRNG mit einer resultierenden Struktur oder Vorhersagbarkeit in der Sequenz führt zum Fehlschlagen der Simulationen.

Carl Witthoft

Eines der Dinge, die Erwähnung verdienen, sind die Berechnungs- und Speicherkosten zum Erzeugen einer großen Anzahl von Zufalls- oder Pseudozufallszahlen. Einige Anwendungen von RNGs in Statistiken erfordern Hunderte bis Millionen von Zufallszahlen, aber einige erfordern viele Größenordnungen mehr, was beide Kosten beeinflusst.

Alexis

Dies ist alles wahr, behebt jedoch nicht das Hauptproblem: Ein PRNG mit einer resultierenden Struktur oder Vorhersagbarkeit in der Sequenz führt zum Fehlschlagen der Simulationen. Carl Witthoft 31. Januar um 15:51 Uhr

Wenn dies Ihr Anliegen ist, sollte der Titel der Frage möglicherweise in "Auswirkung der RNG-Wahl auf die Monte-Carlo-Ergebnisse" oder so ähnlich geändert werden. In diesem Fall, der bereits bei der SE-Kreuzvalidierung berücksichtigt wurde , folgen einige Anweisungen

Wenn Sie schlecht konzipierte RNGs wie das berüchtigte RANDU in Betracht ziehen, wirken sie sich eindeutig negativ auf die Monte-Carlo-Approximation aus. Um Mängel in RNGs zu erkennen, gibt es Benchmark-Banken wie Marsaglias Diehard-Tests . (Beispielsweise wurde festgestellt , dass Park & Miller (1988) den Lehmer-Kongruenzgenerator mit dem Faktor 16807 nicht verwendet und durch 47271 oder 69621 ersetzt hat. Dies wurde natürlich durch massive Periodengeneratoren wie den Mersenne Twister PRNG abgelöst .)
Eine SE-Frage zur Mathematik liefert einen Link zu den Auswirkungen (oder zum Fehlen davon) auf die Schätzung und Genauigkeit, wenn auch keine sehr hilfreiche Antwort.
Jeff Rosenthal (U Toronto) hat eine Arbeit, in der er die Auswirkungen eines RNG auf die Konvergenz von (Monte Carlo) Markov-Ketten untersucht, aber ich kann sie nicht finden. Ich habe kürzlich ein kleines Experiment in meinem Blog durchgeführt, bei dem keine sichtbaren Auswirkungen des RNG-Typs aufgetreten sind.
- Abgesehen davon verwendete ein Lotteriesystem in Ontario eine schlecht entworfene Zufallsgenerierung, die von einem Statistiker, Mohan Srivastava aus Toronto, Kanada, entdeckt wurde, der die Ontario Lottery and Gaming Corporation über das Problem in Kenntnis setzte, anstatt einen hohen Gewinn daraus zu ziehen Schlupfloch.
Hier ist ein Beispiel für einen Fall, in dem ein klassischer Netzwerksimulator von einer schlechten Standardauswahl betroffen ist (in Verbindung mit Park und Miller oben).
Es gibt spezielle Probleme mit der Struktur von RNGs, die beim parallelen Rechnen verwendet werden . Die Verwendung mehrerer Seeds ist normalerweise nicht gut genug, insbesondere für lineare Kongruenzgeneratoren. In der Computerliteratur gibt es viele Ansätze, darunter die SPRNG-Pakete (Scalable Parallel Random Number Generation) von Michael Mascagni (einschließlich einer R-Version) und Matsumotos Dynamic Creator , ein C-Programm, das bei Verwendung des Mersenne-Twisters Startwerte für unabhängige Streams bereitstellt . Dies wurde auch beim SE-Stapelüberlauf behoben .
Letztes Jahr habe ich einen Vortrag von Paula Whitlock über die Auswirkungen der GNU Scientific Library auf die Konvergenz von hochdimensionalen Zufallsläufen gesehen, kann dies aber nicht.
Um es kurz zu machen, gibt es auch einige Literatur zur Unterscheidung zwischen Software- und Hardware-RNGs, mit der Behauptung, dass sich Hellseher auf die späteren auswirken können !

Xi'an
quelle