Angenommen, ich habe folgende Nummern:
4,3,5,6,5,3,4,2,5,4,3,6,5
Ich probiere einige von ihnen aus, sagen wir 5, und berechne die Summe von 5 Proben. Dann wiederhole ich das immer wieder, um viele Summen zu erhalten, und zeichne die Werte der Summen in einem Histogramm auf, das aufgrund des zentralen Grenzwertsatzes Gaußsch ist.
Aber wenn sie Zahlen folgen, habe ich gerade 4 durch eine große Zahl ersetzt:
4,3,5,6,5,3,10000000,2,5,4,3,6,5
Das Abtasten von Summen von 5 Abtastwerten aus diesen wird im Histogramm nie zu einem Gaußschen, sondern eher zu einem Split und wird zu zwei Gaußschen. Warum das?
central-limit-theorem
JimSD
quelle
quelle
Antworten:
Erinnern wir uns genau daran, was der zentrale Grenzwertsatz sagt.
Dies wird häufig in der "informellen" Form verwendet:
Es gibt keine gute Möglichkeit, diese Form der CLT mathematisch genau zu machen, da sich die "Grenz" -Verteilung ändert, aber sie ist in der Praxis nützlich.
Wenn wir eine statische Liste von Zahlen wie haben
Um den zentralen Grenzwertsatz anzuwenden, müssen wir sicherstellen, dass unser Stichprobenschema diese beiden Bedingungen der Unabhängigkeit erfüllt und identisch verteilt ist.
Also, wenn wir mit Ersatz verwenden in Ihrem Schema verwenden, sollten wir in der Lage sein, den zentralen Grenzwertsatz anzuwenden. Gleichzeitig haben Sie Recht, wenn unsere Stichprobe die Größe 5 hat, werden wir ein sehr unterschiedliches Verhalten feststellen, je nachdem, ob in unserer Stichprobe eine sehr große Anzahl ausgewählt wurde oder nicht.
Also, was ist das Problem? Nun, die Rate der Konvergenz zu einer Normalverteilung von der Form der Bevölkerung ist sehr abhängig wir Abtasten von, insbesondere, wenn unsere Bevölkerung sehr Skew ist, erwarten wir eine lange Zeit zu konvergieren auf die Normale zu nehmen. Dies ist in unserem Beispiel der Fall, daher sollten wir nicht erwarten, dass eine Stichprobe der Größe 5 ausreicht, um die normale Struktur aufzuzeigen.
Oben habe ich Ihr Experiment (mit Ersatzprobenahme) für Proben der Größen 5, 100 und 1000 wiederholt. Sie können sehen, dass die normale Struktur für sehr große Proben auftaucht.
(*) Beachten Sie, dass hier einige technische Bedingungen wie der endliche Mittelwert und die Varianz erforderlich sind. Sie können leicht anhand eines Listenbeispiels überprüft werden, ob sie der Wahrheit entsprechen.
quelle
Im Allgemeinen sollte die Größe jeder Stichprobe mehr als5 betragen, damit die CLT-Näherung gut ist. Als Faustregel gilt eine Stichprobe mit einer Größe von 30 oder mehr. Aber mit der Grundgesamtheit Ihres ersten Beispiels ist 5 in Ordnung.
In Ihrem zweiten Beispiel geben selbst Stichproben der Größe 30 aufgrund der Form der Populationsverteilung (zum einen ist sie zu stark verzerrt; lesen Sie die Kommentare von guy und Glen_b unten ) keine gute Annäherung für die Verteilung von die Stichprobenmittelwerte unter Verwendung der CLT.30
Aber mit dieser zweiten Population sind Proben von beispielsweise Größe100 in Ordnung.
quelle
Ich möchte nur anhand komplexer Funktionen , die Kumulatoren erzeugen , erläutern, warum immer wieder jemand die Schuld daran trägt.
Wenn wir die Summe von dividierenn Z n−−√ n(−12(tn−−√)2−iγ16(tn−−√)3)+o(t3)=−12t2−iγ16n−−√t3+o(t3). t n n∝γ21 γ1
quelle
Die kurze Antwort lautet: Sie haben nicht genügend Stichproben, um den zentralen Grenzwertsatz anzuwenden.
quelle