Ist die Anwendung der CLT auf die Summe der Zufallsvariablen eine gute Annäherung?

7

ich benutze (μ,σ2) eine Verteilung mit Mittelwert bedeuten μ und Varianz σ2, N hinzugefügt, um die Normalverteilung zu bedeuten.

Gesetzt den Fall X1,,Xniid(μ,σ2) mit σ2<. Die formale Aussage des zentralen Grenzwertsatzes (CLT) besagt dies

X¯nμσ/ndN(0,1).
Es wird hier diskutiert , dass die Aussage
X¯nN(μ,σ2/n)
ist keine Aussage über die Konvergenz in der Verteilung, sondern eine Annäherung. Diese Annäherung wird häufig als eine ziemlich anständige Annäherung zitiert, wennn30.

Theoretisch könnten wir jetzt noch einen Schritt weiter gehen und das sagen

(1)i=1nXiN(nμ,nσ2)
ist eine ungefähre Aussage des CLT.

Angesichts dessen (1) ist nicht die eigentliche CLT, ich frage mich, wie gut diese Annäherung funktioniert. Funktioniert es im Allgemeinen gut? Ehrlich gesagt wäre ich darüber im Falle einer besonders verzerrten Verteilung besorgt.

Wenn dies zu weit gefasst ist, kann ich dies schließen.

Klarinettist
quelle
2
Dies ist eine sehr gut gestaltete Frage. Möglicherweise sind die Antworten jedoch bereits erschienen. Versuchen Sie diese Suche: stats.stackexchange.com/search?q=esseen .
whuber
2
Informationen zur Konvergenzrate finden Sie im Berry-Esseen-Theorem. Der Begriff gute Annäherung ist subjektiv. Um genau zu sein, definieren Sie, wie groß der maximale Abstand zwischen der Approximationsverteilung und der Standardnormalen sein muss, damit die Approximation "gut" ist.
Michael R. Chernick
1
Ich glaube nicht X¯nN(μ,σ2/n)ist eine Notation, die genau genug ist (auch wenn der zusätzliche Text dies erklärt). Eine bessere Notation wäre "X¯n ist AN(μ,σ2/n)", mit dem Verständnis, dass es bedeutet n(X¯nμ)/σ konvergiert zu N(0,1)im Vertrieb.
Zhanxiong
1
@ Zhanxiong: Die Notation, mit der ich besser vertraut bin, ist X¯n˙N(μ,σ2/n)mit ˙bedeutet "ungefähr verteilt".
Cliff AB
1
Empirisch hängt die Approximationsqualität von der zugrunde liegenden Verteilung von ab Xi. Intuitiv funktioniert die Approximation besser für symmetrische und kontinuierliche Wohnmobile. Beispielsweise benötigen Sie möglicherweise viel kleineren um eine anständige normale Annäherung für zu erhalten XBin(1,0.5) als das für XBin(1,0.01).
Zhanxiong

Antworten:

5

Wenn der Z-Score wirklich eine Standardnormalverteilung wäre, wären Ihre nachfolgenden Annäherungen genau. Der Fehlergrad sollte grob mit einem gewissen Maß an Abstand zwischen der Z-Score-Verteilung und dem Standard-Gaußschen skalieren.

Wir können die KS-Entfernung als unsere Metrik im Raum von CDFs verwenden. Nehmen wir an, wir werden sammelnN Proben und unsere (unbekannte) wahre Probe CDF des Z-Scores von diesen N Proben haben einen KS-Abstand von ϵN:: maxz|FZn(z)FΦ(z)|=ϵN.

wir nun von zu wobei nur eine Verschiebung von Maßstab und Ort beinhaltet (dh eine lineare Transformation des Arguments von ). Gleiches gilt, um zu einer Summe normaler Zufallsvariablen mit dem gleichen Mittelwert und der gleichen Varianz wie Ihre tatsächliche Population zu erhalten. Tatsächlich werden Sie beide Variablen exakt gleich transformieren, also werden wir einfach und ähnlich für - Da wir das Argument jeder Distribution derselben Transformation unterziehen, werden vertikale Abstände beibehalten.FZn(z)FSn(s)Sn=1NXiLzFZn(z)FΦ(z)FZn(z)FZn(L1z)FΦ

Der KS-Abstand für konvergiert also mit der gleichen Rate wie für gegen Null . Jedoch keine Grenzverteilung hat (es ist im Grunde , was nicht eine Verteilung ist) , während konvergiert zu einer tatsächlichen Verteilungsfunktion.FSnFZnFSnF(x)=0.5FZn


quelle