Einige Bücher geben an, dass eine Stichprobengröße von 30 oder höher erforderlich ist, damit der zentrale Grenzwertsatz eine gute Näherung für ergibt .
Ich weiß, dass dies nicht für alle Distributionen ausreicht.
Ich möchte einige Beispiele für Verteilungen sehen, bei denen selbst bei einer großen Stichprobengröße (möglicherweise 100 oder 1000 oder höher) die Verteilung des Stichprobenmittelwerts immer noch ziemlich verzerrt ist.
Ich weiß, dass ich solche Beispiele schon einmal gesehen habe, aber ich kann mich nicht erinnern, wo und ich kann sie nicht finden.
Antworten:
Diese weit verbreitete Faustregel ist so gut wie völlig unbrauchbar. Es gibt Nicht-Normalverteilungen, für die n = 2 in Ordnung ist, und Nicht-Normalverteilungen, für die viel größer ist als ausreichend. Ohne ausdrückliche Einschränkung der Umstände ist die Regel daher irreführend. In jedem Fall, auch wenn es irgendwie wahr wäre, würde das erforderliche n abhängig von dem, was Sie taten, variieren. Oft erhalten Sie gute Näherungen in der Nähe des Verteilungszentrums bei kleinem n , benötigen jedoch ein viel größeres n , um eine annehmbare Näherung im Schwanz zu erhalten.n n n n
Bearbeiten: In den Antworten auf diese Frage finden Sie zahlreiche, aber anscheinend einstimmige Meinungen zu diesem Thema sowie einige gute Links. Ich werde mich jedoch nicht darum kümmern, da Sie es bereits klar verstehen.
Beispiele sind relativ einfach zu konstruieren; Eine einfache Möglichkeit besteht darin, eine unendlich teilbare Verteilung zu finden , die nicht normal ist, und sie aufzuteilen. Wenn Sie eine haben, die sich dem Normalen annähert, wenn Sie mitteln oder zusammenfassen, beginnen Sie an der Grenze von 'Nahe am Normalen' und teilen Sie sie so weit, wie Sie möchten. Also zum Beispiel:
Betrachten Sie eine Gamma-Verteilung mit dem Formparameter . Nehmen Sie die Skala als 1 (Skala spielt keine Rolle). Nehmen wir an, Sie betrachten als "ausreichend normal". Dann hat eine Verteilung, für die Sie 1000 Beobachtungen benötigen, um ausreichend normal zu sein, eine -Verteilung. Gamma ( α 0 , 1 ) , Gamma ( α 0 / 1000 , 1 )α Gamma ( α0, 1 ) Gamma ( α0/ 1000,1)
Also, wenn Sie das Gefühl haben, dass ein Gamma mit 'normal genug' ist -α = 20
Teilen Sie dann durch 1000, um :α = 0,02α = 20 α = 0,02
Der Durchschnitt von 1000 davon hat die Form des ersten PDFs (aber nicht dessen Maßstab).
Wenn Sie stattdessen eine unendlich teilbare Verteilung wählen, die sich nicht der Normalverteilung annähert, wie z. B. der Cauchy, dann gibt es möglicherweise keine Stichprobengröße, bei der die Stichprobenmittel ungefähr normale Verteilungen haben (oder in einigen Fällen nähern sie sich immer noch der Normalverteilung an, aber Sie haben keinen Effekt für den Standardfehler.σ/ n--√
@whubers Argument über kontaminierte Verteilungen ist sehr gut; Es kann sich lohnen, eine Simulation mit diesem Fall zu versuchen und zu sehen, wie sich die Dinge in vielen solchen Beispielen verhalten.
quelle
quelle
Vielleicht finden Sie dieses Papier hilfreich (oder zumindest interessant):
http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf
Die Forscher von UMass haben tatsächlich eine Studie durchgeführt, die Ihrer Anfrage entspricht. Bei welcher Stichprobengröße folgen bestimmte verteilte Daten aufgrund von CLT einer Normalverteilung? Anscheinend sind viele Daten, die für psychologische Experimente gesammelt wurden, nicht annähernd normal verteilt, weshalb sich die Disziplin ziemlich stark auf CLT verlässt, um Rückschlüsse auf ihre Statistiken zu ziehen.
Seltsamerweise wurden 65 Prozent der normalverteilten Daten mit einer Stichprobengröße von 20 abgelehnt, und selbst mit einer Stichprobengröße von 30 wurden 35% immer noch abgelehnt.
Anschließend testeten sie mehrere stark verzerrte Verteilungen, die mit der Fleishman-Potenzmethode erstellt wurden:
X stellt den Wert dar, der aus der Normalverteilung gezogen wird, während a, b, c und d Konstanten sind (beachte, dass a = -c ist).
Sie führten die Tests mit Stichprobengrößen bis zu 300 durch
Sie stellten fest, dass bei den höchsten Werten von Skew und Kurt (1,75 und 3,75) bei Stichprobengrößen von 300 keine Stichprobenmittel erzeugt wurden, die einer Normalverteilung folgten.
Leider glaube ich nicht, dass dies genau das ist, wonach Sie suchen, aber ich bin darauf gestoßen und fand es interessant und dachte, dass Sie es auch könnten.
quelle