Warum funktioniert die CLT Arbeit für

16

Wir wissen also, dass eine Summe von Poisson mit dem nParameter λ selbst eine Poisson mit nλ . So hypothetisch könnte man nehmen xpoisson(λ=1) und sagen , dass es tatsächlich ist 1nxipoisson(λ=1) , wobei jedes xi ist: xipoisson(λ=1/n) und nehmen Sie ein großes n, um CLT zum Laufen zu bringen.

Das funktioniert (offensichtlich) nicht. Ich nehme an, das hat etwas damit zu tun, wie CLT für Zufallsvariablen "schneller" arbeitet, die "näher" am Normalen liegen, und je kleiner Lambda ist, desto mehr erhalten wir eine Zufallsvariable, die meistens 0 ist und selten etwas anderes variiert.

Was ich jedoch erklärte, ist meine Intuition. Gibt es eine formellere Erklärung, warum dies der Fall ist?

Vielen Dank!

Tal Galili
quelle
6
Für den Anfang benötigt CLT, dass Sie i=1nxi durch teilenn (in diesem Fall werden Sie zu einem Gaußschen konvergieren).
Alex R.
1
@AlexR. Wenn Sie durch dividieren n, ist die Standardabweichung ein Faktor von 1/n
Aksakal
4
Ich verstehe nicht, was diese Frage mit dem CLT "nicht funktioniert" zu tun hat. Die CLT betrifft standardisierte Summen von Zufallsvariablen mit einer bestimmten Verteilung, während Sie einen Einnahme einzelnen Zufallsvariable und Betrachtung unendlich viele Möglichkeiten der Teilung es auf.
Whuber
2
@AlexR Das Setup scheint völlig falsch zu sein. Hier laufen zwei verschiedene Prozesse ab - Summation und Division - und es gibt keinen Grund anzunehmen, dass sie ähnliche asymptotische Eigenschaften haben sollten.
whuber
3
@Aksakal: Eigentlich ist AlexR richtig. Wenn Sie durch dividieren , erhalten Sie eine entartete Verteilung als n . Wenn Sie durch teilennn nähern Sie sich einer Normalverteilung mit sd = 1 alsn. nn
Cliff AB

Antworten:

13

Ich stimme @whuber zu, dass die Wurzel der Verwirrung darin zu liegen scheint, die asymptotische Summierung in CLT durch eine Art Teilung in Ihrem Argument zu ersetzen. In CLT erhalten wir die feste Verteilung dann ziehen n Zahlen x i aus ihr und berechnen die Summe ˉ x n = 1f(x,λ)nxi . Wenn wirnweitererhöhen, passiert etwas Interessantes: x¯n=1ni=1nxin wobeiμ,σ2 derMittelwert und die Varianz der Verteilungf(x) sind.

n(x¯nμ)N(0,σ2)
μ,σ2f(x)

Was Sie mit Poisson vorschlagen, ist etwas rückwärts: Anstatt die Variablen aus einer festen Verteilung zu summieren , möchten Sie die feste Verteilung in sich ständig ändernde Teile aufteilen . Mit anderen Worten, Sie nehmen eine Variable x aus einer festen Verteilung f ( x , λ ) und teilen sie dann in x i, so dass n i = 1 x ixxf(x,λ)xi

i=1nxix

Was sagt CLT über diesen Prozess? Nichts. Beachten Sie, wie wir in CLT jemals und seine sichänderndeVerteilungfn(x), die zu einerfestenVerteilungN(0,σ2)konvergiertn(x¯nμ)fn(x)N(0,σ2)

In Ihrem Setup ändern sich weder die Summe noch deren Verteilung f ( x , λ ) ! Sie sind repariert. Sie ändern sich nicht, sie laufen zu nichts zusammen. CLT hat also nichts zu sagen.xf(x,λ)

Außerdem sagt CLT nichts über die Anzahl der Elemente in der Summe aus. Sie können eine Summe von 1000 Variablen aus Poisson (0,001) haben, und CLT sagt nichts über die Summe aus. Es heißt nur, wenn Sie N weiter erhöhen, sieht diese Summe irgendwann aus wie eine Normalverteilung . In der Tat, wenn N = 1.000.000, erhalten Sie die enge Annäherung an die Normalverteilung.1Ni=1Nxi,xiPoisson(0.001)

Ihre Intuition stimmt nur in Bezug auf die Anzahl der Elemente in der Summe, dh wenn sich die Anfangsverteilung von der normalen Verteilung unterscheidet, müssen Sie mehr Elemente summieren, um zur normalen Verteilung zu gelangen. Je mehr formale (aber informell noch) Art und Weise , indem man die charakteristische Funktion von Poisson würde: Wenn Sie & lgr; > > 1 , erhalten Sie mit der Taylor - Entwicklung (WRT t ) des verschachtelten Exponenten: exp ( i λ t - λ / 2 t 2

exp(λ(exp(it)1))
λ>>1t Dies ist die charakteristische Funktion der Normalverteilung N ( λ , λ 2 )
exp(iλtλ/2t2)
N(λ,λ2)

Ihre Intuition wird jedoch nicht richtig angewendet: Wenn Sie die Summe in CLT durch eine Art Division verschieben, wird die Sache durcheinander gebracht und CLT wird nicht anwendbar.

Aksakal
quelle
+1 Das vorbereitende Material ist gut formuliert, sehr klar und bringt das Thema auf den Punkt.
Whuber
7

Das Problem bei Ihrem Beispiel ist, dass Sie zulassen, dass sich die Parameter ändern, wenn sich ändert. Die CLT sagt Ihnen, dass für eine feste Verteilung mit einem endlichen Mittelwert und sd, als n ,nn

,x-μndN(0,σ)

wobei und σ aus dem Mittelwert und sd der Verteilung von x stammen .μσx

Natürlich sind für verschiedene Verteilungen (z. B. höhere Versetzungen) größere erforderlich, bevor die aus diesem Theorem abgeleitete Approximation vernünftig wird. In Ihrem Beispiel für λ m = 1 / m , ein n > > m erforderlich ist , bevor die normale Annäherung sinnvoll ist.nλm=1/mn>>m

BEARBEITEN

Es wird diskutiert, wie die CLT nicht für Summen gilt, sondern für standardisierte Summen (dh nichtxi). Theoretisch ist dies natürlich richtig: Die nicht standardisierte Summe wird in den meisten Fällen eine undefinierte Verteilung haben.xich/nxich

In der Praxis können Sie die vom CLT begründete Annäherung jedoch durchaus auf Summen anwenden! Wenn durch eine normale CDF für großes n angenähert werden kann , dann kann F x sicherlich auch, da die Multiplikation mit einem Skalar die Normalität bewahrt. Und das können Sie gleich in diesem Problem sehen: Denken Sie daran, dass, wenn X iP o i s ( λ ) , dann Y = n i = 1 X iP o i s ( n λ ) ist.Fx¯nFxXichPÖichs(λ)Y.=ich=1nXichPÖichs(nλ). Und wir alle haben in unserem oberen Teilungswahrscheinlichkeitskurs gelernt, dass für großes die CDF eines P o i s ( λ ) recht gut durch eine Normale mit μ = λ , σ 2 = λ angenähert werden kann . Also für jeden festen λ , können wir die CDF von annähernd Y ~ P o i s ( n λ ) recht gut mit Φ ( y - n λλPÖichs(λ)μ=λσ2=λ λY.PÖichs(nλ)für ein ausreichend großesn,wenn& lgr;>0(eine Näherung kann trivial angewendet werden, wenn& lgr;=0 ist, aber nicht die Berechnung der CDF, wie ich sie geschrieben habe).Φ(y-nλnλ)nλ>0λ=0

Während die CLT nicht ohne weiteres für Summen gilt, gilt die auf der CLT basierende Annäherung mit Sicherheit. Ich glaube, darauf bezog sich das OP, als es darum ging, die CLT auf die Summe anzuwenden.

Cliff AB
quelle
5

Ich behaupte, die Frage ist interessanter, wenn man allgemeiner darüber nachdenkt, wie die Verteilung des übergeordneten Poisson von abhängt , beispielsweise mit den Parametern λ n und λ n = 1 als Sonderfall. Ich halte es für vernünftig zu fragen, warum und wie wir das verstehen können, dass ein zentraler Grenzwertsatz für die Summe S n = n i = 1 X i , n nicht gilt . Schließlich ist es üblich, eine CLT auch bei Problemen anzuwenden, bei denen die Verteilungen der Komponenten der Summe von n abhängennλnλn=1Sn=i=1nXi,nn. Es ist auch üblich, Poisson-Verteilungen als Verteilung einer Summe von Poisson-Variablen zu zerlegen und dann eine CLT anzuwenden.

Xi,nnSnnSnPoi(n)Poi(λn)

SnPoi(1)nSn

sn2=Veinr(Sn)ϵ>0

1sn2ich=1nE[Xich,n-1/n]2ich(|Xich,n-1/n|>ϵsn)0,n

Nun, für den vorliegenden Fall, stirbt die Varianz der Terme in der Summe so schnell ab nsn=1nnXich,n

nE[X1,n-1/n]2ich(|X1,n-1/n|>ϵ)0.

ϵn

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)>nϵ2P(X1,n>0)=ϵ2n[1-e-1/n]=ϵ2n[1-(1-1/n+Ö(1/n))]=ϵ2+Ö(1),

Snnn

ekvall
quelle
+1 Dies beleuchtet auch einen Kommentar von @AlexR zur Frage.
Whuber