Bootstrap gegen Monte Carlo, Fehlerschätzung

12

Ich lese den Artikel Fehlerausbreitung nach der Monte-Carlo-Methode in geochemischen Berechnungen, Anderson (1976), und es gibt etwas, das ich nicht ganz verstehe.

Betrachten Sie einige Messdaten und ein Programm , das sie verarbeitet und einen bestimmten Wert zurückgibt. In dem Artikel wird dieses Programm verwendet, um zuerst den besten Wert unter Verwendung der Daten zu erhalten (dh: ).{ A , B , C }{A±σA,B±σB,C±σC}{A,B,C}

Der Autor verwendet dann eine Monte-Carlo-Methode, um diesem besten Wert eine Unsicherheit zuzuweisen, indem er die Eingabeparameter innerhalb ihrer Unsicherheitsgrenzen variiert (gegeben durch eine Gaußsche Verteilung mit den Mitteln und Standardabweichungen ), bevor sie dem Programm werden. Dies ist in der folgenden Abbildung dargestellt:{ σ A , σ B , σ C }{A,B,C}{σA,σB,σC}

Geben Sie hier die Bildbeschreibung ein

( Copyright: ScienceDirect )

wobei die Unsicherheit aus der endgültigen Verteilung erhalten werden kann.Z

Was würde passieren, wenn ich anstelle dieser Monte-Carlo-Methode eine Bootstrap-Methode anwenden würde? Etwas wie das:

Geben Sie hier die Bildbeschreibung ein

Dies ist: Anstatt die Daten innerhalb ihrer Unsicherheiten zu variieren, bevor sie dem Programm zugeführt werden, probiere ich sie mit Ersatz aus.

Was sind in diesem Fall die Unterschiede zwischen diesen beiden Methoden? Welche Vorsichtsmaßnahmen sollte ich beachten, bevor ich eine davon anwende?


Ich bin mir dieser Frage Bootstrap, Monte Carlo , bewusst , aber sie löst meinen Zweifel nicht ganz, da die Daten in diesem Fall zugewiesene Unsicherheiten enthalten.

Gabriel
quelle
Nur um zu verdeutlichen: Die "zufällige Änderung" in der MC-Methode wird vom Forscher zufällig generiert? Das heißt, Rauschen / Fehler werden künstlich zu den Eingabedaten hinzugefügt?
Shadowtalker
Es wird "zufällig generiert", basierend auf den Unsicherheiten der gemessenen Daten (dh dem ) und unter der Annahme einer bestimmten Verteilung für diese Fehler (normalerweise Gauß). Also nein, Fehler werden nicht künstlich hinzugefügt. Den Eingabedaten ist ein Fehler zugeordnet, der durch den Messvorgang verursacht wird. σ
Gabriel
Ich glaube nicht, dass ich verstehe. Das ist künstliches Rauschen, aber mit einer Standardabweichung, die von den Daten geschätzt wird
Shadowtalker
Dann verstehe ich wahrscheinlich nicht, was "künstlicher Lärm" ist (und was "nicht künstlicher Lärm" bedeuten würde). Hast du den Artikel gesehen? Es erklärt die Dinge sicherlich viel besser als ich.
Gabriel
Natürliches Rauschen: zufällige Variation meiner Daten. Künstliches Rauschen: Verwenden eines Zufallszahlengenerators zum Zeichnen von Zahlen aus einer Wahrscheinlichkeitsverteilung und Hinzufügen dieser Zahlen zu meinen Daten
Shadowtalker

Antworten:

7

Soweit ich Ihre Frage verstehe, ist der Unterschied zwischen dem "Monte Carlo" -Ansatz und dem Bootstrap-Ansatz im Wesentlichen der Unterschied zwischen parametrischen und nicht parametrischen Statistiken.

Im parametrischen Rahmen weiß man genau, wie die Daten erzeugt werden, mit den Parametern des Modells ( , in Ihrer Beschreibung) können Sie neue Realisierungen solcher Datensätze erstellen und daraus neue Erkenntnisse Ihres statistischen Verfahrens (oder "Ausgabe"). Es ist somit möglich, die Wahrscheinlichkeitsverteilung der Ausgabe vollständig und genau zu beschreiben , entweder durch mathematische Ableitungen oder durch ein Monte-Carlo-Experiment, bei dem eine Stichprobe beliebiger Größe aus dieser Verteilung zurückgegeben wird. A σ A Z.x1,,xNAσAZ

Im nichtparametrischen Rahmen möchte man solche Annahmen nicht über die Daten treffen und verwendet daher die Daten und nur die Daten, um ihre Verteilung abzuschätzen . Der Bootstrap ist insofern ein solcher Ansatz, als die unbekannte Verteilung durch die empirische Verteilung geschätzt wird, die durch Setzen eines Wahrscheinlichkeitsgewichts von für jeden Punkt der Stichprobe (im einfachsten Fall, wenn die Daten iid sind) erstellt wurde. Unter Verwendung dieser empirischen Verteilung als Ersatz für die wahre Verteilung kann man durch Monte-Carlo-Simulationen die geschätzte Verteilung der Ausgabe ableiten .F 1 / n F F ZFF^1/nF^FZ

Der Hauptunterschied zwischen beiden Ansätzen besteht also darin, ob man diese parametrische Annahme über die Verteilung der Daten macht oder nicht.

Xi'an
quelle
2
Fast zwei Jahre später weiß ich, dass dies die beste Antwort ist, da darin ausdrücklich der Unterschied zwischen den parametrischen und nicht parametrischen Ansätzen erwähnt wird (die ich damals nicht kannte). Daher ändere ich die akzeptierte Antwort auf diese .
Gabriel
aber für den paramrtrischen Ansatz kann man auch parametrischen Bootstrap verwenden, oder?
Tom Wenseleers
12

Die zufällige Änderung in Ihrem Monte-Carlo-Modell wird durch eine Glockenkurve dargestellt, und die Berechnung geht wahrscheinlich von einem normalverteilten "Fehler" oder "Änderung" aus. Zumindest benötigt Ihr Computer einige Annahmen über die Verteilung, aus der die "Änderung" gezogen werden soll. Bootstrapping macht solche Annahmen nicht unbedingt. Es nimmt Beobachtungen als Beobachtungen und wenn ihr Fehler asymetrisch verteilt ist, geht es auf diese Weise in das Modell.

Bootstrapping basiert auf der Beobachtung und benötigt daher eine Reihe von echten Beobachtungen. Wenn Sie in einem Buch lesen, dass C im Durchschnitt bei 5 mit einer Standardabweichung von 1 liegt, können Sie ein Monte-Carlo-Modell erstellen, auch wenn Sie keine Beobachtungen haben, aus denen Sie ziehen können. Wenn Ihre Beobachtung knapp ist (denken Sie an Astronomie), können Sie ein Monte-Carlo-Modell mit 6 Beobachtungen und einigen Annahmen über deren Verteilung erstellen, aber Sie werden nicht von 6 Beobachtungen booten.

Gemischte Modelle mit einigen Eingaben aus beobachteten Daten und einigen aus simulierten (beispielsweise hypothetischen) Daten sind möglich.

Bearbeiten: In der folgenden Diskussion in den Kommentaren fand das Originalposter Folgendes hilfreich:

Dem "ursprünglichen Programm" ist es egal, ob es einen Wert erhält, den Sie aus einem Mittelwert und einer Abweichung berechnet haben oder der eine echte Realisierung eines Mittelwerts und einer Abweichung in einem natürlichen Prozess darstellt.

Bernhard
quelle
1
Vielen Dank für Ihre Antwort Bernhard! Ein paar Fragen, die mir in den Sinn kommen. 1. Verstehe ich richtig, dass der einzige (Haupt-?) Unterschied zwischen diesen beiden Methoden darin besteht, dass MC eine Verteilung für die Unsicherheiten annehmen muss, während der Bootstrap dies nicht tut? 2. Wenn ich einen ausreichend großen Datensatz hätte und die Iteration mehrmals durchführen würde ( ), würden diese beiden Methoden dann auf die geschätzte Unsicherheit konvergieren, die dem besten Wert zugeordnet ist ? 3. Verwerfe ich keine wertvollen Daten, indem ich die Unsicherheiten, die den Eingabedaten in der Bootstrap-Methode zugewiesen wurden, nicht verwende? N
Gabriel
1
Ich bin statistisch / maschinell lernend Autodidakt, daher werde ich nicht behaupten, dass die genannten Unterschiede die einzigen sind. Ich bin mir nicht einmal sicher, ob Bootstrapping selbst als Monte-Carlo-Methode angesehen wird. Beide Algorithmen simulieren eine Vielzahl realistischer Szenarien. Sie können die Eingabe entweder aus Annahmen oder aus Beobachtungen ziehen. Mein Fachgebiet ist Medizin und Annahmen sind in diesem Bereich notorisch falsch. Daher würde ich versuchen, Beobachtungen durchzuführen, wenn sie in ausreichender Anzahl verfügbar sind. Es kann gut sein, dass im Bereich näher an Physik oder Chemie, ...
Bernhard
1
... dass in Bereichen, die näher an der Physik oder Chemie liegen, Annahmen zuverlässiger sind. Zu Punkt 2: Wenn Sie sich für ausreichend große Stichproben und Iterationen entscheiden, werden Sie feststellen, dass reale Daten niemals wirklich normal verteilt sind und dass Ihre Annahmen immer ein bisschen falsch sind, aber ich kann kein Wissen beanspruchen. Zu Punkt 3: Ich bin mir nicht sicher, ob ich verstanden habe, was Sie unter dem Verwerfen wertvoller Daten in der Bootstrap-Methode verstehen. "Unsicherheit zuweisen" ist von Menschen gemacht, Daten kommen aus der Realität. Auch dies ist mein Glaube, der auf meinem Gebiet basiert. In Wirklichkeit werden Sie selten gute Theorie und große Datenmengen haben
Bernhard
1
Mit dem Verwerfen wertvoller Daten meine ich, dass die Bootstrap-Methode die den Daten zugewiesenen Unsicherheiten nicht nutzt (dh: ). Dies sind "Informationen", die die MC-Methode berücksichtigt, die Bootstrap-Methode jedoch verwirft. σA,σB,σC
Gabriel
1
Jede Beobachtung ist ein Messwert und enthält somit bereits einen eigenen Messfehler und eine eigene Unsicherheit. Dem "ursprünglichen Programm" ist es egal, ob es einen Wert erhält, den Sie aus einem Mittelwert und einer Abweichung berechnet haben oder der eine echte Realisierung eines Mittelwerts und einer Abweichung in einem natürlichen Prozess darstellt. Aber natürlich basieren alle Resampling-Techniken auf einer großen Datenbasis, und Sie können beliebige Zahlen oder Zufallszahlen berechnen, aber normalerweise keine willkürliche Anzahl von Beobachtungen machen. In Fällen, in denen Sie eine große Anzahl von Beobachtungen haben, sehe ich nicht, wo Daten verworfen werden.
Bernhard
1

Wenn die Funktion, die den Ausgang Z mit den Eingängen in Beziehung setzt, einigermaßen linear ist (dh innerhalb des Variationsbereichs der Eingänge), ist die Varianz von Z eine Kombination der Varianzen und Kovarianzen der Eingänge. Die Details der Verteilung spielen keine große Rolle ... Daher sollten beide Methoden ähnliche Ergebnisse liefern.

Siehe den Anhang 1 zum GUM

Pascal
quelle
Was passiert, wenn die Funktion nicht einigermaßen linear ist? Wie werden sich diese beiden Methoden dann unterscheiden?
Gabriel
In diesem Fall sollten Sie sich auf die obige Antwort von Bernhard beziehen. Das heißt, damit sie zusammenfallen, sollten Sie eine genaue Beschreibung der Daten als PDF für Monte Carlo haben.
Pascal
0

Bootstrap bedeutet, die Daten für sich selbst sprechen zu lassen. Mit der Monte-Carlo-Methode werden viele zufällige Ziehungen aus der auferlegten CDF (normal; Gamma; Beta ...) über eine gleichmäßige Verteilung abgetastet und ein empirisches PDF erstellt (vorausgesetzt, die CDF ist kontinuierlich und ableitbar). Eine interessante Erklärung des gesamten Monte-Carlo-Prozesses findet sich in: Briggs A, Schulper M, Claxton K. Entscheidungsmodellierung für die gesundheitsökonomische Bewertung. Oxford: Oxford University Press, 2006: 93-95.

Carlo Lazzaro
quelle