Was sind einige wichtige Verwendungen der Zufallszahlengenerierung in der Rechenstatistik?

15

Wie und warum sind Zufallszahlengeneratoren (Random Number Generators, RNGs) in der Rechenstatistik wichtig?

Ich verstehe, dass die Zufälligkeit bei der Auswahl von Stichproben für viele statistische Tests wichtig ist, um Verzerrungen in Bezug auf beide Hypothesen zu vermeiden. Gibt es jedoch andere Bereiche der Rechenstatistik, in denen Zufallszahlengeneratoren wichtig sind?

Patrick
quelle
1
Was fragst du? Ihre Frage macht nicht wirklich viel Sinn.
Carl Witthoft
2
Es könnte besser sein, nach Bereichen zu fragen, in denen sie nicht wichtig sind. Es wäre wahrscheinlich eine kürzere Liste.
John Coleman
2
Die Frage ist breit, aber der Titel ist ansprechend und Matthews Antwort ist eine schöne Übersicht. Ich habe für die Wiedereröffnung gestimmt!
Benoit Sanchez
3
Dies ist im Vergleich zu herkömmlichen SE-Standards eindeutig zu weit gefasst und stellt eine große Frage dar, die wahrscheinlich viele kleine, kaum ausgearbeitete Antworten liefert, die häufig bereits gegebene Antworten duplizieren. Hier scheint es jedoch einen echten Wert zu geben. Ein Kompromiss ist, dass dies CW & geschützt ist. In Zukunft werden Antworten, die etwas Unausgearbeitetes und / oder bereits erwähnte doppelte Verwendungen erwähnen, unverzüglich und ohne Kommentar gelöscht.
gung - Reinstate Monica

Antworten:

17

Es gibt viele, viele Beispiele. Viel zu viele, um sie aufzulisten, und wahrscheinlich zu viele, um sie vollständig zu kennen (außer möglicherweise @whuber, der niemals unterschätzt werden sollte).

Wie Sie bereits erwähnt haben, in kontrollierten Experimenten vermeiden wir Stichprobenverzerrungen, indem wir die Probanden zufällig in Behandlungs- und Kontrollgruppen aufteilen.

Beim Bootstrapping wir die wiederholte Stichprobe aus einer Population durch zufällige Stichprobe mit Ersatz aus einer festen Stichprobe. So können wir unter anderem die Varianz unserer Schätzungen abschätzen.

In Kreuzvalidierung schätzen wir den Fehler einer Schätzung außerhalb der Stichprobe, indem wir unsere Daten zufällig in Segmente unterteilen und zufällige Trainings- und Testsätze zusammenstellen.

In Permutationstests wir zufällige Permutationen, um eine Stichprobe unter der Nullhypothese zu erstellen, sodass nichtparametrische Hypothesentests in einer Vielzahl von Situationen durchgeführt werden können.

Beim Absacken steuern wir die Varianz einer Schätzung, indem wir wiederholt eine Schätzung der Bootstrap-Stichproben von Trainingsdaten durchführen und dann die Ergebnisse mitteln.

In zufälligen Wäldern steuern wir die Varianz einer Schätzung weiter, indem wir an jedem Entscheidungspunkt auch eine zufällige Stichprobe aus den verfügbaren Prädiktoren ziehen.

In der Simulation bitten wir ein Anpassungsmodell, zufällig neue Datensätze zu generieren, die wir mit Trainings- oder Testdaten vergleichen können, um die Anpassung und Annahmen in einem Modell zu validieren.

In Markov Kette Monte Carlo wir anhand einer Markov-Kette den Raum möglicher Ergebnisse (danke an @Ben Bolker für dieses Beispiel).

Das sind nur die alltäglichen Anwendungen, die einem sofort in den Sinn kommen. Wenn ich tief grabe, könnte ich wahrscheinlich die Länge dieser Liste verdoppeln. Zufälligkeit ist sowohl ein wichtiges Untersuchungsobjekt als auch ein wichtiges Werkzeug.

Matthew Drury
quelle
Dies ist alles wahr, behebt aber nicht das Hauptproblem: Ein PRNG mit einer resultierenden Struktur oder Vorhersagbarkeit in der Sequenz führt zum Fehlschlagen der Simulationen.
Carl Witthoft
3
Eines der Dinge, die Erwähnung verdienen, sind die Berechnungs- und Speicherkosten zum Erzeugen einer großen Anzahl von Zufalls- oder Pseudozufallszahlen. Einige Anwendungen von RNGs in Statistiken erfordern Hunderte bis Millionen von Zufallszahlen, aber einige erfordern viele Größenordnungen mehr, was beide Kosten beeinflusst.
Alexis
5

Dies ist alles wahr, behebt jedoch nicht das Hauptproblem: Ein PRNG mit einer resultierenden Struktur oder Vorhersagbarkeit in der Sequenz führt zum Fehlschlagen der Simulationen. Carl Witthoft 31. Januar um 15:51 Uhr

Wenn dies Ihr Anliegen ist, sollte der Titel der Frage möglicherweise in "Auswirkung der RNG-Wahl auf die Monte-Carlo-Ergebnisse" oder so ähnlich geändert werden. In diesem Fall, der bereits bei der SE-Kreuzvalidierung berücksichtigt wurde , folgen einige Anweisungen

Xi'an
quelle