Hintergrund
Ich entwerfe eine Monte-Carlo-Simulation, die die Ergebnisse einer Reihe von Modellen kombiniert, und ich möchte sicher sein, dass die Simulation es mir ermöglicht, angemessene Aussagen über die Wahrscheinlichkeit des simulierten Ergebnisses und die Genauigkeit dieser Wahrscheinlichkeitsschätzung zu machen.
Die Simulation ermittelt die Wahrscheinlichkeit, dass eine Jury aus einer bestimmten Community einen bestimmten Angeklagten verurteilt. Dies sind die Schritte der Simulation:
Erstellen Sie aus den vorhandenen Daten ein logistisches Wahrscheinlichkeitsmodell ( M ), indem Sie die "Juror First Ballot Vote" für demografische Prädiktoren zurückbilden.
Verwenden Sie Monte-Carlo-Methoden, um 1.000 Versionen von zu simulieren M (dh 1.000 Versionen der Koeffizienten für die Modellparameter).
Wählen Sie eine der 1.000 Versionen des Modells ( M i ).
Empanel 1.000 Jurys durch zufällige Auswahl von 1.000 Sätzen von 12 "Juroren" aus einer "Community" ( C ) von Personen mit bestimmten demografischen Merkmalen .
Berechnen Sie mit M deterministisch die Wahrscheinlichkeit einer ersten Stimmabgabe für jeden Geschworenen i.
Übertragen Sie die wahrscheinliche Stimme jedes "Jurors" in eine bestimmte Stimme (basierend darauf, ob sie größer oder kleiner als ein zufällig ausgewählter Wert zwischen 0 und 1 ist).
Bestimmen Sie die „Endabstimmung“ jeder „Jury“ anhand eines Modells (abgeleitet aus empirischen Daten) der Wahrscheinlichkeit, mit der eine Jury verurteilt wird, abhängig vom Anteil der Juroren, die bei der ersten Abstimmung für eine Verurteilung stimmen.
Speichern Sie den Anteil der Schuldsprüche für die 1000 Jurys ( PG i ).
Wiederholen Sie die Schritte 3-8 für jeden der 1.000 simulierten Versionen von M .
Berechnen Sie den Mittelwert von PG und geben Sie dies als Punktschätzung der Wahrscheinlichkeit einer Verurteilung in C an .
Identifizieren Sie die 2,5- und 97,5-Perzentilwerte für PG und geben Sie dies als 0,95-Konfidenzintervall an.
Ich verwende derzeit 1.000 Juroren und 1.000 Jurys für die Theorie, dass 1.000 Zufallszahlen aus einer Wahrscheinlichkeitsverteilung - demografische Merkmale von C oder Versionen von M - diese Verteilung ergänzen.
Fragen
Kann ich damit die Genauigkeit meiner Schätzung genau bestimmen? Wenn ja, wie viele Jurys muss ich für jede PG i -Berechnung mit einbeziehen, um die Wahrscheinlichkeitsverteilung von C abzudecken (so vermeide ich Auswahlverzerrungen); Darf ich weniger als 1.000 verwenden?
Vielen Dank für jede Hilfe!
Antworten:
Es gibt ein allgemeines und "universelles" Kriterium für die Güte von Monte Carlo - Konvergenz.
Halten Sie sich an ein M und überprüfen Sie, wie sich das PG mit der Anzahl der Jurys verhält - es sollte konvergieren, sodass eine Anzahl von Wiederholungen angezeigt wird, für die Sie (für Ihre Anwendung) eine vernünftige Anzahl von signifikanten Stellen haben. Wiederholen Sie diesen Benchmark für einige andere Ms, um sicherzustellen, dass Sie mit der M-Auswahl kein Glück hatten, und fahren Sie dann mit der gesamten Simulation fort.
quelle
Hier scheint mir das Problem zu sein, ob das Modell zu komplex ist, um es ohne Monte-Carlo-Simulation zu untersuchen.
Wenn das Modell relativ einfach ist, sollte es möglich sein, es durch die Statistik von conventioanl zu betrachten und eine Lösung für die gestellte Frage abzuleiten, ohne das Modell mehrmals erneut auszuführen. Dies ist ein bisschen zu einfach, aber wenn Ihr Modell nur Punkte auf der Grundlage einer Normalverteilung erzeugt hat, können Sie die Art der Antworten, nach denen Sie suchen, leicht ableiten. Wenn das Modell so einfach ist, ist es natürlich unwahrscheinlich, dass Sie eine Monte-Carlo-Simulation durchführen müssen, um Ihre Antworten zu finden.
Wenn das Problem komplex ist und es nicht möglich ist, es auf elementarere Elemente herunterzubrechen, ist Monte-Carlo der richtige Modelltyp, aber ich glaube, es gibt keine Möglichkeit, Konfidenzgrenzen zu definieren, ohne das Modell auszuführen. Um die Art der beschriebenen Vertrauensgrenzen zu erhalten, müsste das Modell mehrmals ausgeführt werden, eine Wahrscheinlichkeitsverteilung müsste an die Ausgaben angepasst werden, und von dort aus könnten die Vertrauensgrenzen definiert werden. Eine der Herausforderungen bei der Monte-Carlo-Simulation besteht darin, dass Modelle gute und regelmäßige Antworten auf Verteilungen im mittleren Bereich geben, die Schwänze jedoch häufig viel variablere Ergebnisse liefern, was letztendlich bedeutet, dass mehr Durchläufe erforderlich sind, um die Form der Ausgaben bei 2,5% und zu definieren 97,5% Perzentile.
quelle