Warum bricht der zentrale Grenzwertsatz in meiner Simulation zusammen?

21

Angenommen, ich habe folgende Nummern:

4,3,5,6,5,3,4,2,5,4,3,6,5

Ich probiere einige von ihnen aus, sagen wir 5, und berechne die Summe von 5 Proben. Dann wiederhole ich das immer wieder, um viele Summen zu erhalten, und zeichne die Werte der Summen in einem Histogramm auf, das aufgrund des zentralen Grenzwertsatzes Gaußsch ist.

Aber wenn sie Zahlen folgen, habe ich gerade 4 durch eine große Zahl ersetzt:

4,3,5,6,5,3,10000000,2,5,4,3,6,5

Das Abtasten von Summen von 5 Abtastwerten aus diesen wird im Histogramm nie zu einem Gaußschen, sondern eher zu einem Split und wird zu zwei Gaußschen. Warum das?

JimSD
quelle
1
Das geht nicht, wenn Sie es auf über n = 30 oder so erhöhen ... nur mein Verdacht und eine prägnantere Version / Anpassung der akzeptierten Antwort unten.
10.
@JimSD Die CLT ist ein asymptotisches Ergebnis (dh über die Verteilung standardisierter Stichprobenmittel oder Summen im Grenzbereich, wenn die Stichprobengröße unendlich wird). ist nicht n . Das, was Sie betrachten (der Ansatz zur Normalität in endlichen Stichproben), ist nicht ausschließlich ein Ergebnis der CLT, sondern ein verwandtes Ergebnis. n=5n
Glen_b
3
@ oemb1905 n = 30 ist nicht ausreichend für die Art der Schiefe, die OP vorschlägt. Je nachdem, wie selten eine Kontamination mit einem Wert wie ist, kann es n = 60 oder n = 100 oder noch mehr dauern, bis die Norm als vernünftige Annäherung erscheint. Wenn die Verunreinigung etwa 7% beträgt (wie in der Frage), ist n = 120 immer noch etwas schief107
Glen_b
Denken Sie, dass Werte in Intervallen wie (1.100.000, 1.900.000) niemals erreicht werden. Aber wenn Sie mit einem anständigen Betrag diese Summen verdienen, wird es funktionieren!
David

Antworten:

18

Erinnern wir uns genau daran, was der zentrale Grenzwertsatz sagt.

Wenn X1,X2,,Xk unabhängige und identisch verteilte Zufallsvariablen mit (gemeinsamem) Mittelwert μ und Standardabweichung σ , dann ist X1+X2++Xkkσk konvergiert in der Verteilung zu einer StandardnormalverteilungN(0,1) (*).

Dies wird häufig in der "informellen" Form verwendet:

Wenn X1,X2,,Xk unabhängige und identisch verteilte Zufallsvariablen mit (gemeinsamem) Mittelwert μ und Standardabweichung σ , dann konvergiert X1+X2++Xk "in Verteilung" zu einer Standardnormalverteilung N(kμ,kσ) .

Es gibt keine gute Möglichkeit, diese Form der CLT mathematisch genau zu machen, da sich die "Grenz" -Verteilung ändert, aber sie ist in der Praxis nützlich.

Wenn wir eine statische Liste von Zahlen wie haben

4,3,5,6,5,3,10000000,2,5,4,3,6,5

Um den zentralen Grenzwertsatz anzuwenden, müssen wir sicherstellen, dass unser Stichprobenschema diese beiden Bedingungen der Unabhängigkeit erfüllt und identisch verteilt ist.

  • Identisch verteilt ist kein Problem: Jede Nummer in der Liste wird mit gleicher Wahrscheinlichkeit ausgewählt.
  • Independent ist subtiler und hängt von unserem Stichprobenverfahren ab. Wenn wir ohne Ersatz bemustern, verletzen wir die Unabhängigkeit. Nur bei Stichproben mit Ersatz ist der zentrale Grenzwertsatz anwendbar.

Also, wenn wir mit Ersatz verwenden in Ihrem Schema verwenden, sollten wir in der Lage sein, den zentralen Grenzwertsatz anzuwenden. Gleichzeitig haben Sie Recht, wenn unsere Stichprobe die Größe 5 hat, werden wir ein sehr unterschiedliches Verhalten feststellen, je nachdem, ob in unserer Stichprobe eine sehr große Anzahl ausgewählt wurde oder nicht.

Also, was ist das Problem? Nun, die Rate der Konvergenz zu einer Normalverteilung von der Form der Bevölkerung ist sehr abhängig wir Abtasten von, insbesondere, wenn unsere Bevölkerung sehr Skew ist, erwarten wir eine lange Zeit zu konvergieren auf die Normale zu nehmen. Dies ist in unserem Beispiel der Fall, daher sollten wir nicht erwarten, dass eine Stichprobe der Größe 5 ausreicht, um die normale Struktur aufzuzeigen.

Drei Normalverteilungen

Oben habe ich Ihr Experiment (mit Ersatzprobenahme) für Proben der Größen 5, 100 und 1000 wiederholt. Sie können sehen, dass die normale Struktur für sehr große Proben auftaucht.

(*) Beachten Sie, dass hier einige technische Bedingungen wie der endliche Mittelwert und die Varianz erforderlich sind. Sie können leicht anhand eines Listenbeispiels überprüft werden, ob sie der Wahrheit entsprechen.

Matthew Drury
quelle
Vielen Dank für eine sehr schnelle und perfekte Antwort. Idee von CLT, Ersatz, Bedarf an mehr Samples, wenn die Datenverteilung schief läuft, ... Es ist jetzt sehr klar. Meine ursprüngliche Fragestellung ist, wie Sie bereits erwähnt haben, der Fall, dass eine große Anzahl ersatzlos enthalten ist und die Anzahl der Stichproben festgelegt ist. Es verhält sich sehr unterschiedlich, und daher müssen wir die "bedingte" CLT für den Fall berücksichtigen, dass eine große Anzahl abgetastet wird und der Fall nicht abgetastet wird. Ich frage mich, ob es dafür Nachforschungen oder Vorarbeiten gibt. Aber trotzdem danke.
JimSD
weiß nicht , ob hier anwendbar, aber Satz von CLT Konvergenz geregelt durch Schiefe en.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem
seanv507
Ich bin ein bisschen verwirrt von @ MatthewDrury's Definition des CLT. Ich denke, dass konvergiert gegen eine Konstante durch die LLN, nicht gegen eine Normalverteilung. Xkk
9.
1
@ seanv507 absoluter dritter moment, eher als schiefe; die beiden sind verwandt, beachten Sie jedoch, dass für eine symmetrische Verteilung mit endlich drittem Moment die Berry-Esseen an gebunden sind F n ( x ) - Φ ( x ) | ist nicht 0, weil ρ / σ 3 keine Schiefe ist|Fn(x)Φ(x)|ρ/σ3
Glen_b - Monica
1
@ Glen_b Yah, ich war ein bisschen informell (was ich vielleicht nicht hätte tun sollen), aber ich kann das heute Nachmittag beheben, da es zu ein bisschen Verwirrung geführt hat.
Matthew Drury
12

Im Allgemeinen sollte die Größe jeder Stichprobe mehr als 5 betragen, damit die CLT-Näherung gut ist. Als Faustregel gilt eine Stichprobe mit einer Größe von 30 oder mehr. Aber mit der Grundgesamtheit Ihres ersten Beispiels ist 5 in Ordnung.

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

Bildbeschreibung hier eingeben

In Ihrem zweiten Beispiel geben selbst Stichproben der Größe 30 aufgrund der Form der Populationsverteilung (zum einen ist sie zu stark verzerrt; lesen Sie die Kommentare von guy und Glen_b unten ) keine gute Annäherung für die Verteilung von die Stichprobenmittelwerte unter Verwendung der CLT.30

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

Bildbeschreibung hier eingeben

Aber mit dieser zweiten Population sind Proben von beispielsweise Größe 100 in Ordnung.

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

Bildbeschreibung hier eingeben

Zen
quelle
3
Es ist nicht die Varianz, die ein Problem darstellt. Eine Möglichkeit, eine strenge Kontrolle zu erhalten, besteht darin, das Verhältnis des dritten zentralen Moments zur gewürfelten Standardabweichung zu verwenden, wie im Satz von Berry-Esseen.
Kerl
Perfekt. Hinzugefügt. Tks.
Zen
1
Vielen Dank für eine schnelle, visuelle und perfekte Antwort mit einem Code. Ich war sehr überrascht, wie schnell es ging! Die Anzahl der Stichproben war mir nicht bekannt. Ich dachte an den Fall, in dem die Anzahl der Stichproben festgelegt ist.
JimSD
@guy, danke dafür. Ich kannte die Idee "des Verhältnisses des dritten zentralen Moments zur Standardabweichung, die im Berry-Esseen-Theorem berechnet wird" nicht . Ich möchte nur auf den Fall eingehen, dass eine große Anzahl von Ausreißern in die Verteilung einbezogen ist. Und auf diese Art der Verteilung kann man sich, wie Sie bereits sagten, berufen. Wenn Sie eine frühere Arbeit kennen, die sich mit dieser Art des Vertriebs befasst, lassen Sie es mich wissen, danke.
JimSD
2
ρ=E[|Xμ|3]μ3=E[(Xμ)3]
7

Ich möchte nur anhand komplexer Funktionen , die Kumulatoren erzeugen , erläutern, warum immer wieder jemand die Schuld daran trägt.

μ+σZμσZ01Z12t2iγ16t3+o(t3)γ1Zκ3μ+σZγ1=σ3κ3 .

Wenn wir die Summe von dividierennZn

n(12(tn)2iγ16(tn)3)+o(t3)=12t2iγ16nt3+o(t3).
tnnγ12γ1

JG
quelle
-1

Die kurze Antwort lautet: Sie haben nicht genügend Stichproben, um den zentralen Grenzwertsatz anzuwenden.

Feynman
quelle
1
Dass dies keine gültige Erklärung sein kann, geht aus der Beobachtung hervor, dass die CLT eine gute Annäherung für den ersten Datensatz in der Frage darstellt, der gleichermaßen klein ist.
whuber
@whuber: Ich denke, Sie sagen, dass die Normalverteilung eine einigermaßen gute Annäherung für eine Stichprobe von fünf aus dem ersten Satz ergibt. Da es nur eine endliche Anzahl von Werten für die Summen gibt (13 mögliche Werte ohne Ersetzung und 21 mögliche Werte mit Ersetzung), wird die Approximation bei einer großen Anzahl von Abtastwerten von fünf nicht viel besser, und die anfängliche Approximation beruht eher auf das anfängliche Muster ...
Henry
@whuber Da die Verteilung des ersten Satzes nach links verzerrt aussieht, würde ich erwarten, dass die Summe von fünf auch nach links verzerrt ist, in weniger extremer Weise als ich erwarten würde, dass die Summe von fünf aus dem zweiten Satz nach rechts verzerrt ist. Um die Schiefe weiter zu verringern, hätte ich gedacht, dass Sie eine größere Stichprobe benötigen
Henry
1
@ Henry Vielen Dank für Ihre Kommentare. Ich habe mich nicht zu diesen besonderen Umständen geäußert, sondern nur zur Logik dieser Antwort, in der Hoffnung, dass sie weiter erklärt werden könnte.
whuber