Simulationsstudie: Wie wählt man die Anzahl der Iterationen?

11

Ich möchte Daten mit "Modell 1" generieren und mit "Modell 2" anpassen. Die zugrunde liegende Idee besteht darin, die Robustheitseigenschaften von "Modell 2" zu untersuchen. Ich interessiere mich besonders für die Abdeckungsrate des 95% -Konfidenzintervalls (basierend auf der normalen Näherung).

  • Wie stelle ich die Anzahl der Iterationsläufe ein?
  • Stimmt es, dass größere als notwendige Replikationen zu falschen Verzerrungen führen können? Wenn ja, wie ist das?
user7064
quelle
Was meinen Sie mit "Abdeckungsrate des 95% -Konfidenzintervalls"? Wenn das Konfidenzintervall genau oder ein gutes ungefähres Intervall ist, deckt es ungefähr 95% der Zeit den wahren Wert des Parameters ab.
Michael R. Chernick
1
Wenn Sie ein auf Modell 2 basierendes Konfidenzintervall für Daten generieren, die unter Modell 1 generiert wurden, scheint dies darauf hinzudeuten, dass die beiden Modelle miteinander verbunden sind und einige der gleichen Parameter enthalten. Können Sie uns etwas mehr erklären? Wenn Sie in Ihrem zweiten Aufzählungspunkt "falsch" sagen, meinen Sie damit auch falsch oder nur unwichtig? Eine größere Anzahl von Simulationen sollte keine Verzerrung erzeugen, könnte jedoch eine Verzerrung aufzeigen, die wenig praktische Bedeutung hat und die Sie mit einer kleineren Anzahl nicht sehen würden, ähnlich wie Sie einen sehr kleinen Effekt erkennen (dh statistische Signifikanz für ihn erhalten), wenn Sie dies tun haben eine sehr große Stichprobengröße.
Makro
@ Michael Chernick: Eine Unterdeckung kann beispielsweise erreicht werden, wenn der Standardfehler zu klein ist. Ich habe meine Frage so bearbeitet, dass sie Konfidenzintervalle verwendet, die auf der normalen Näherung basieren.
user7064
@Macro: "Modell 1" generiert normale Daten mit heteroskedastischen Fehlertermen und "Modell 2" ist das lineare Standardmodell.
user7064

Antworten:

10

Basierend auf Ihrem Follow-up-Kommentar scheint es, als würden Sie versuchen, die Abdeckungswahrscheinlichkeit eines Konfidenzintervalls zu schätzen, wenn Sie eine konstante Fehlervarianz annehmen, wenn die wahre Fehlervarianz nicht konstant ist.

Ich denke darüber nach, dass das Konfidenzintervall für jeden Lauf entweder den wahren Wert abdeckt oder nicht. Definieren Sie eine Indikatorvariable:

Yi={1if the interval covers0if it does not

Dann ist die Deckungswahrscheinlichkeit, an der Sie interessiert sind, die Sie anhand des Stichprobenanteils schätzen können, den Sie meiner Meinung nach vorschlagen.E(Yi)=p

Wie stelle ich die Anzahl der Iterationsläufe ein?

Wir wissen, dass die Varianz eines Bernoulli-Versuchs beträgt und Ihre Simulationen IID- Bernoulli-Versuche erzeugen. Daher beträgt die Varianz Ihrer simulationsbasierten Schätzung von p p ( 1 - p ) / n , wobei n der ist Anzahl der Simulationen. Sie können n wählen , um diese Varianz so weit zu verkleinern, wie Sie möchten. Es ist eine Tatsache , daß p ( 1 - p ) / n 1 / 4 np(1p)pp(1p)/nnn

p(1p)/n1/4n

Wenn Sie also die Varianz kleiner sein wollen als ein vorher festgelegten Schwellenwert, , dann können Sie dies sicherstellen , indem Sie n 1 / 4 δ .δn1/4δ

Wenn Sie allgemeiner versuchen, die Eigenschaften der Stichprobenverteilung eines Schätzers durch Simulation zu untersuchen (z. B. Mittelwert und Varianz), können Sie die Anzahl der Simulationen basierend auf der Genauigkeit auswählen, die Sie in einer Analogie erreichen möchten Mode zu dem hier beschriebenen.

Beachten Sie auch, dass Sie, wenn der Mittelwert (oder ein anderer Moment) einer Variablen das interessierende Objekt ist, wie hier, ein Konfidenzintervall für sie basierend auf den Simulationen unter Verwendung der normalen Näherung (dh des zentralen Grenzwertsatzes) erstellen können. , wie in MansTs netter Antwort besprochen. Diese normale Näherung ist besser, wenn die Anzahl der Stichproben zunimmt. Wenn Sie also ein Konfidenzintervall erstellen möchten, indem Sie sich auf den zentralen Grenzwertsatz berufen, möchten Sie, dass groß genug ist, damit dies zutrifft. Für den binären Fall, wie Sie hier haben, scheint diese Annäherung gut zu sein, selbst wenn n p und n ( 1 - p ) ziemlich moderat sind - sagen wir 20 .nnpn(1p)20

Stimmt es, dass größere als notwendige Replikationen zu falschen Verzerrungen führen können? Wenn ja, wie ist das?

Wie ich in einem Kommentar erwähnt habe - das hängt davon ab, was Sie unter falsch verstehen. Eine größere Anzahl von Simulationen führt nicht zu einer Verzerrung im statistischen Sinne, kann jedoch eine unwichtige Verzerrung aufzeigen, die nur bei einer astronomisch großen Stichprobengröße erkennbar ist. Angenommen, die tatsächliche Abdeckungswahrscheinlichkeit des falsch spezifizierten Konfidenzintervalls . Dann ist dies im praktischen Sinne kein wirkliches Problem, aber Sie können diesen Unterschied möglicherweise nur feststellen, wenn Sie eine Menge Simulationen durchgeführt haben.94.9999%

Makro
quelle
10

Ich verwende häufig die Breite der Konfidenzintervalle, um die Anzahl der erforderlichen Iterationen schnell und unkompliziert zu bestimmen.

Sei die wahre Abdeckungsrate des 95% -Konfidenzintervalls, wenn Daten von "Modell 1" an "Modell 2" angepasst werden. Wenn X die Häufigkeit ist, mit der das Konfidenzintervall den wahren Parameterwert in n Iterationen abdeckt , dann ist X B i n ( n , p )pXnXBin(n,p) .

Der Schätzer p = X / n hat Mittelwert P und die Standardabweichung p^=X/npp(1p)/nnp^p^±1.96p^(1p^)/npp0.9521.960.950.05/n

0.1n

0.1=21.960.950.05/n.

n

MånsT
quelle
(+1) Es sieht so aus, als hätten wir ungefähr zur gleichen Zeit eine sehr ähnliche Antwort eingereicht, aber ich denke, dass die unterschiedliche Sprache für einige nützlich sein kann.
Makro
Ja, tatsächlich weiß ich immer noch nicht, welche Antwort ich akzeptieren soll! Wie auch immer, +1 für beide!
user7064
1
@ Macro: +1 auch für dich. Varianz und Intervallbreite sind hier natürlich mehr oder weniger gleichwertig. Große Köpfe denken gleich - und unsere auch. ;)
MånsT
@ MånsT Bin ich richtig anzunehmen, dass bei einer CI-Breite von 0,01 für die Abdeckungsrate von 90% die Anzahl der erforderlichen Iterationen erforderlich wäre? n=(21.650.950.05/0.01)2 for a 95% CI? Let's say this CI is for a proportion estimate. How does the sample size of my binomial model (an then choose quantiles to find CI) affect the coverage probability?
A Gore
0

If you are doing a simulation the minimum number of required runs depends on your objective (What are you trying to estimate and with what accuracy?). If you are trying to estimate the average response then the standard deviation of the sample average is the Population Standard Deviationn. So if d is the required half-width for 95% confidence interval for the mean you want d=1.96×Pop.Std.Devn or n=(1.96×Pop.Std.Dev)2d2.

Doing more simulations (assuming all samples arre generated by a random process) does nothing to hurt the estimation in terms of accuracy or bias.

The coverage of an approximate confidence interval will differ from the exact 95% coveraged desired and the error in coverage should decrease with increasing n. As mentioned by Macro and MansT, you can bound the Monte Carlo estimate of coverage based on the variance of the binomial proportion being p(1p)n.

Michael R. Chernick
quelle
4
Hi @Michael. I think this answer misses the point. The OP is trying to investigate how the coverage properties of a confidence interval are changed when you assume constant variance but the true variance is not constant.
Macro
@Macro: You are right. I deliberately put the question in a broader context to avoid answers that are specific to the problem of assuming constant variance.
user7064
@Macro That was not part of the question that I answered. Apparently that was clarified later. It also appears that what was of interest was the accuracy of a confidence interval that uses the normal approximation. This does not seem to be addressed in any of the answers.
Michael R. Chernick
4
@Michael, yes I know - my point was more that you (and I) asked for clarification but you didn't wait for the clarification before posting your answer. Re: your second comment, you can investigate the coverage properties of any interval in this way, regardless of whether it was based on the normal approximation or not. If you think there's something distinct to add that is missed by the existing answers then please edit your answer so we can all learn.
Macro
@Macro Of course I agree with you. I edited my answer for the benefit of the OP. I suspect that there is nothing in the content that you wouldn't already know.
Michael R. Chernick