Simulationsstudie: Wie wählt man die Anzahl der Iterationen?

Ich möchte Daten mit "Modell 1" generieren und mit "Modell 2" anpassen. Die zugrunde liegende Idee besteht darin, die Robustheitseigenschaften von "Modell 2" zu untersuchen. Ich interessiere mich besonders für die Abdeckungsrate des 95% -Konfidenzintervalls (basierend auf der normalen Näherung).

Wie stelle ich die Anzahl der Iterationsläufe ein?
Stimmt es, dass größere als notwendige Replikationen zu falschen Verzerrungen führen können? Wenn ja, wie ist das?

simulation monte-carlo user7064
quelle

Was meinen Sie mit "Abdeckungsrate des 95% -Konfidenzintervalls"? Wenn das Konfidenzintervall genau oder ein gutes ungefähres Intervall ist, deckt es ungefähr 95% der Zeit den wahren Wert des Parameters ab.

Michael R. Chernick

Wenn Sie ein auf Modell 2 basierendes Konfidenzintervall für Daten generieren, die unter Modell 1 generiert wurden, scheint dies darauf hinzudeuten, dass die beiden Modelle miteinander verbunden sind und einige der gleichen Parameter enthalten. Können Sie uns etwas mehr erklären? Wenn Sie in Ihrem zweiten Aufzählungspunkt "falsch" sagen, meinen Sie damit auch falsch oder nur unwichtig? Eine größere Anzahl von Simulationen sollte keine Verzerrung erzeugen, könnte jedoch eine Verzerrung aufzeigen, die wenig praktische Bedeutung hat und die Sie mit einer kleineren Anzahl nicht sehen würden, ähnlich wie Sie einen sehr kleinen Effekt erkennen (dh statistische Signifikanz für ihn erhalten), wenn Sie dies tun haben eine sehr große Stichprobengröße.

Makro

@ Michael Chernick: Eine Unterdeckung kann beispielsweise erreicht werden, wenn der Standardfehler zu klein ist. Ich habe meine Frage so bearbeitet, dass sie Konfidenzintervalle verwendet, die auf der normalen Näherung basieren.

user7064

@Macro: "Modell 1" generiert normale Daten mit heteroskedastischen Fehlertermen und "Modell 2" ist das lineare Standardmodell.

user7064

Antworten:

Basierend auf Ihrem Follow-up-Kommentar scheint es, als würden Sie versuchen, die Abdeckungswahrscheinlichkeit eines Konfidenzintervalls zu schätzen, wenn Sie eine konstante Fehlervarianz annehmen, wenn die wahre Fehlervarianz nicht konstant ist.

Ich denke darüber nach, dass das Konfidenzintervall für jeden Lauf entweder den wahren Wert abdeckt oder nicht. Definieren Sie eine Indikatorvariable:

Y_{i} = {\begin{cases} 1 & i f t h e i n t e r v a l c o v e r s \\ 0 & i f i t d o e s n o t \end{cases}

$Y_i = \begin{cases} 1 & {\rm if \ the \ interval \ covers} \\ 0 & {\rm if \ it \ does \ not } \end{cases}$

Dann ist die Deckungswahrscheinlichkeit, an der Sie interessiert sind, die Sie anhand des Stichprobenanteils schätzen können, den Sie meiner Meinung nach vorschlagen. $E(Y_i) = p$

Wie stelle ich die Anzahl der Iterationsläufe ein?

Wir wissen, dass die Varianz eines Bernoulli-Versuchs beträgt und Ihre Simulationen IID- Bernoulli-Versuche erzeugen. Daher beträgt die Varianz Ihrer simulationsbasierten Schätzung von , wobei ist Anzahl der Simulationen. Sie können wählen , um diese Varianz so weit zu verkleinern, wie Sie möchten. Es ist eine Tatsache , daß $p(1-p)$ $p$ $p(1-p)/n$ $n$ $n$

p (1 - p) / n \leq 1 / 4 n

$p(1-p)/n \leq 1/4n$

Wenn Sie also die Varianz kleiner sein wollen als ein vorher festgelegten Schwellenwert, , dann können Sie dies sicherstellen , indem Sie . $\delta$ $n \geq 1/4\delta$

Wenn Sie allgemeiner versuchen, die Eigenschaften der Stichprobenverteilung eines Schätzers durch Simulation zu untersuchen (z. B. Mittelwert und Varianz), können Sie die Anzahl der Simulationen basierend auf der Genauigkeit auswählen, die Sie in einer Analogie erreichen möchten Mode zu dem hier beschriebenen.

Beachten Sie auch, dass Sie, wenn der Mittelwert (oder ein anderer Moment) einer Variablen das interessierende Objekt ist, wie hier, ein Konfidenzintervall für sie basierend auf den Simulationen unter Verwendung der normalen Näherung (dh des zentralen Grenzwertsatzes) erstellen können. , wie in MansTs netter Antwort besprochen. Diese normale Näherung ist besser, wenn die Anzahl der Stichproben zunimmt. Wenn Sie also ein Konfidenzintervall erstellen möchten, indem Sie sich auf den zentralen Grenzwertsatz berufen, möchten Sie, dass groß genug ist, damit dies zutrifft. Für den binären Fall, wie Sie hier haben, scheint diese Annäherung gut zu sein, selbst wenn und ziemlich moderat sind - sagen wir . $n$ $np$ $n(1-p)$ $20$

Stimmt es, dass größere als notwendige Replikationen zu falschen Verzerrungen führen können? Wenn ja, wie ist das?

Wie ich in einem Kommentar erwähnt habe - das hängt davon ab, was Sie unter falsch verstehen. Eine größere Anzahl von Simulationen führt nicht zu einer Verzerrung im statistischen Sinne, kann jedoch eine unwichtige Verzerrung aufzeigen, die nur bei einer astronomisch großen Stichprobengröße erkennbar ist. Angenommen, die tatsächliche Abdeckungswahrscheinlichkeit des falsch spezifizierten Konfidenzintervalls . Dann ist dies im praktischen Sinne kein wirkliches Problem, aber Sie können diesen Unterschied möglicherweise nur feststellen, wenn Sie eine Menge Simulationen durchgeführt haben. $94.9999\%$

Makro
quelle

Ich verwende häufig die Breite der Konfidenzintervalle, um die Anzahl der erforderlichen Iterationen schnell und unkompliziert zu bestimmen.

Sei die wahre Abdeckungsrate des 95% -Konfidenzintervalls, wenn Daten von "Modell 1" an "Modell 2" angepasst werden. Wenn die ist, mit der das Konfidenzintervall den wahren Parameterwert in Iterationen abdeckt , dann ist $p$ $X$ $n$ $X\sim {\rm Bin}(n,p)$ .

Der Schätzer hat Mittelwert und die Standardabweichung $\hat{p}=X/n$ $p$ $\sqrt{p(1-p)/n}$ $n$ $\hat{p}$ $\hat{p}\pm 1.96\sqrt{\hat{p}(1-\hat{p})/n}$ $p$ $p\approx 0.95$ $2\cdot 1.96\sqrt{0.95\cdot 0.05/n}$

$0.1$ $n$

0.1 = 2 \cdot 1.96 \sqrt{0.95 \cdot 0.05 / n} .

$0.1=2\cdot 1.96\sqrt{0.95\cdot 0.05/n}.$

$n$

MånsT
quelle

(+1) Es sieht so aus, als hätten wir ungefähr zur gleichen Zeit eine sehr ähnliche Antwort eingereicht, aber ich denke, dass die unterschiedliche Sprache für einige nützlich sein kann.

Makro

Ja, tatsächlich weiß ich immer noch nicht, welche Antwort ich akzeptieren soll! Wie auch immer, +1 für beide!

user7064

@ Macro: +1 auch für dich. Varianz und Intervallbreite sind hier natürlich mehr oder weniger gleichwertig. Große Köpfe denken gleich - und unsere auch. ;)

MånsT

@ MånsT Bin ich richtig anzunehmen, dass bei einer CI-Breite von 0,01 für die Abdeckungsrate von 90% die Anzahl der erforderlichen Iterationen erforderlich wäre?

n = (2 \cdot 1.65 \sqrt{0.95 \cdot 0.05} / 0.01)^{2}

$n=(2\cdot 1.65 \sqrt{0.95\cdot 0.05}/0.01)^2$ for a 95% CI? Let's say this CI is for a proportion estimate. How does the sample size of my binomial model (an then choose quantiles to find CI) affect the coverage probability?

A Gore

If you are doing a simulation the minimum number of required runs depends on your objective (What are you trying to estimate and with what accuracy?). If you are trying to estimate the average response then the standard deviation of the sample average is the $\dfrac{\text{Population Standard Deviation}}{\sqrt{n}}$ . So if $d$ is the required half-width for $95\%$ confidence interval for the mean you want $d= 1.96 \times \dfrac{\text{Pop.Std.Dev}}{\sqrt{n}}$ or $n=\dfrac{ (1.96 \times\text{Pop.Std.Dev})^2}{d^2}$ .

Doing more simulations (assuming all samples arre generated by a random process) does nothing to hurt the estimation in terms of accuracy or bias.

The coverage of an approximate confidence interval will differ from the exact $95\%$ coveraged desired and the error in coverage should decrease with increasing $n$ . As mentioned by Macro and MansT, you can bound the Monte Carlo estimate of coverage based on the variance of the binomial proportion being $\dfrac{p(1-p)}{n}$ .

Michael R. Chernick
quelle

Hi @Michael. I think this answer misses the point. The OP is trying to investigate how the coverage properties of a confidence interval are changed when you assume constant variance but the true variance is not constant.

Macro

@Macro: You are right. I deliberately put the question in a broader context to avoid answers that are specific to the problem of assuming constant variance.

user7064

@Macro That was not part of the question that I answered. Apparently that was clarified later. It also appears that what was of interest was the accuracy of a confidence interval that uses the normal approximation. This does not seem to be addressed in any of the answers.

Michael R. Chernick

@Michael, yes I know - my point was more that you (and I) asked for clarification but you didn't wait for the clarification before posting your answer. Re: your second comment, you can investigate the coverage properties of any interval in this way, regardless of whether it was based on the normal approximation or not. If you think there's something distinct to add that is missed by the existing answers then please edit your answer so we can all learn.

Macro

@Macro Of course I agree with you. I edited my answer for the benefit of the OP. I suspect that there is nothing in the content that you wouldn't already know.

Michael R. Chernick