Verstehe intuitiv, warum die Poisson-Verteilung der Grenzfall der Binomialverteilung ist

14

In "Data Analysis" von DS Sivia wird die Poisson-Verteilung von der Binomialverteilung abgeleitet.

Sie argumentieren, dass die Poisson-Verteilung der Grenzfall der Binomialverteilung ist, wenn , wobei die Anzahl der Versuche ist.MM

Frage 1: Wie kann dieses Argument intuitiv verstanden werden?

Frage 2: Warum ist das große Limit von Gleich , Wobei die Anzahl der Erfolge in Versuche? (Dieser Schritt wird bei der Ableitung verwendet.)MM!N!(MN)!MNN!NM

Ytsen de Boer
quelle
Dies ist relevant: stats.stackexchange.com/questions/180057/…
kjetil b halvorsen

Antworten:

5

Ich werde eine einfache intuitive Erklärung versuchen. Zeichnen Sie auf, dass für eine binomiale Zufallsvariable XBin(n,p) die Erwartung np und die Varianz np(1p) . Stellen Sie sich nun vor, dass X die Anzahl der Ereignisse in einer sehr großen Anzahl n von Versuchen mit jeweils sehr geringer Wahrscheinlichkeit aufzeichnet p, sodass wir sehr nahe an 1p=1 (wirklich ) sind. Dann haben wir np=λsagen wir, und np(1p)np1=λ , so dass der Mittelwert und die Varianz beide gleich λ . Dann denken Sie daran, dass für eine poissonverteilte Zufallsvariable Mittelwert und Varianz immer gleich sind! Das ist zumindest ein Plausibilitätsargument für die Poisson-Approximation, aber kein Beweis.

Betrachten Sie es dann von einem anderen Standpunkt aus, dem Poisson-Point-Prozess https://en.wikipedia.org/wiki/Poisson_point_process auf der realen Linie. Dies ist die Verteilung von zufälligen Punkten auf der Linie, die wir erhalten, wenn zufällige Punkte gemäß den Regeln auftreten:

  1. Punkte in disjunkten Intervallen sind unabhängig
  2. Die Wahrscheinlichkeit eines zufälligen Punktes in einem sehr kurzen Intervall ist proportional zur Länge des Intervalls
  3. Die Wahrscheinlichkeit von zwei oder mehr Punkten in einem sehr kurzen Intervall ist im Wesentlichen Null.

Dann ist die Verteilung der Anzahl von Punkten in einem gegebenen Intervall (nicht notwendigerweise kurz) Poisson (wobei der Parameter λ proportional zur Länge ist). Wenn wir dieses Intervall in sehr viele, gleichermaßen sehr kurze Teilintervalle ( n ) aufteilen , ist die Wahrscheinlichkeit von zwei oder mehr Punkten in einem gegebenen Teilintervall im wesentlichen Null, so dass diese Zahl in sehr guter Näherung eine Bernolli-Verteilung hat. das heißt, Bin(1,p) , also ist die Summe von allem Bin(n,p) , also eine gute Annäherung an die Poisson-Verteilung der Anzahl von Punkten in diesem (langen) Intervall.

Bearbeiten von @Ytsen de Boer (OP): Frage Nr. 2 wird von @ Łukasz Grad zufriedenstellend beantwortet.

kjetil b halvorsen
quelle
6

Lassen Sie mich eine alternative Heuristik bereitstellen. Ich werde zeigen, wie man den Poisson-Prozess als Binomial approximiert (und argumentieren, dass die Approximation für viele Versuche mit geringer Wahrscheinlichkeit besser ist). Daher muss die Binomialverteilung zur Poissonverteilung tendieren.

Angenommen, Ereignisse finden mit einer konstanten Zeitrate statt. Wir möchten wissen, wie viele Ereignisse an einem Tag aufgetreten sind, und wissen, dass die erwartete Anzahl von Ereignissen λ .

Nun, die erwartete Anzahl von Ereignissen pro Stunde ist λ/24 . Nehmen wir an, dies bedeutet, dass die Wahrscheinlichkeit, dass ein Ereignis in einer bestimmten Stunde λ/24 beträgt . [es ist nicht ganz richtig, aber es ist eine anständige Annäherung, wenn λ/241 Grunde genommen, wenn wir annehmen können, dass mehrere Ereignisse nicht in derselben Stunde auftreten]. Dann können wir die Verteilung der Anzahl von Ereignissen als Binomial mit M=24 Versuchen mit jeweils einer Erfolgswahrscheinlichkeit λ/24 approximieren .

Wir verbessern die Annäherung, indem wir unser Intervall auf Minuten umstellen. Dann ist es p=λ/1440 mit M=1440 Versuchen. Wenn λ etwa 10 ist, können wir ziemlich sicher sein, dass keine Minute zwei Ereignisse hatte.

Natürlich wird es besser, wenn wir zu Sekunden wechseln. Jetzt betrachten wir jeweils M=86400 Ereignisse mit der kleinen Wahrscheinlichkeit λ/86400 .

Egal wie groß Ihre λ sind, kann ich schließlich ein klein genug wählen Δt , so dass es sehr wahrscheinlich , dass keine zwei Ereignisse im gleichen Intervall passieren. Dann wird die Binomialverteilung , dass entsprechenden Δt wird eine ausgezeichnete Übereinstimmung mit der wahren Poisson - Verteilung sein.

Der einzige Grund, warum sie nicht genau gleich sind, besteht darin, dass die Wahrscheinlichkeit, dass zwei Ereignisse im selben Zeitintervall auftreten, nicht null ist. Angesichts der Tatsache, dass es nur λ Ereignisse gibt und diese auf eine Anzahl von Behältern verteilt sind, die viel größer als λ , ist es unwahrscheinlich, dass zwei davon im selben Behälter liegen.

Mit anderen Worten, die Binomialverteilung tendiert zur Poisson-Verteilung als M wenn die Erfolgswahrscheinlichkeit p=λ/M .

Joel
quelle
5

Frage 1

Erinnern Sie sich an die Definition der Binomialverteilung:

eine Häufigkeitsverteilung der möglichen Anzahl erfolgreicher Ergebnisse in einer bestimmten Anzahl von Studien, in denen jeweils die gleiche Erfolgswahrscheinlichkeit besteht.

Vergleichen Sie dies mit der Definition der Poisson-Verteilung:

eine diskrete Häufigkeitsverteilung, die die Wahrscheinlichkeit angibt, dass mehrere unabhängige Ereignisse in einer festgelegten Zeit auftreten .

Der wesentliche Unterschied zwischen der 2 und dem Binomial besteht in Versuchen, Poisson über einen Zeitraum t . Wie kann das Limit intuitiv auftreten?nt

Nehmen wir an, Sie müssen die Bernoulli-Versuche für alle Ewigkeit fortsetzen. Außerdem laufen Sie pro Minute. Pro Minute zählt man jeden Erfolg. Also für alle Ewigkeit Sie führen ein B i n ( p , 30 ) Prozess jede Minute. Mehr als 24 Stunden haben Sie einen B i n ( p , 43200 ) .n=30Bin(p,30)Bin(p,43200)

Wenn Sie müde werden, werden Sie gefragt, wie viele Erfolge zwischen 18:00 und 19:00 Uhr erzielt wurden. Ihre Antwort könnte , dh Sie liefern die durchschnittlichen Erfolge in einer Stunde. Das klingt für mich sehr nach dem Poisson-Parameter λ .3060pλ


quelle
5

Frage 2)

M!N!(MN)!MNN!=M(M1)(MN+1)MN=1(11M)(1N1M)

Nehmen Sie also das Limit für festes N

limMM!N!(MN)!MNN!=limM1(11M)(1N1M)=1
Łukasz Grad
quelle
+1. Zuerst habe ich mir Stirlings Näherung angesehen, bin aber im Kreis herumgelaufen. Ihr Ansatz ist viel einfacher.
Ich glaube nicht, dass dies das ist, was das OP intuitiv finden wird ...
kjetil b halvorsen
@kjetilbhalvorsen I tried to use simplest math possible, intuitively for large M we have MMk for fixed k<<M
Łukasz Grad
1
@kjetilbhalvorsen This is an answer to Q2 (derivation step), not Q1 (intuitive explanation)
Ben Bolker
@TemplateRex Hmm but I think when proving pointwise convergence I only need to prove it for every fixed N, as M goes to infiity, isn't it? That is ωΩlimmXm(ω)X(ω)
Łukasz Grad
5

The problem is that your characterization of the Poisson as a limiting case of the binomial distribution is not quite correct as stated.

The Poisson is a limiting case of the binomial when:

MandMpλ.
The second part is important. If p remains fixed, the first condition implies that the rate will also increase without bound.

What the Poisson distribution assumes is that events are rare. What we mean by "rare" is not that the rate of events is small--indeed, a Poisson process may have a very high intensity λ--but rather, that the probability of an event occurring at any instant in time [t,t+dt) is vanishingly small. This is in contrast to a binomial model where the probability p of an event (e.g. "success") is fixed for any given trial.

To illustrate, suppose we model a series of M independent Bernoulli trials each with probability of success p, and we look at what happens to the distribution of the number of successes X as M. For any N as large as we please, and no matter how small p is, the expected number of successes E[X]=Mp>N for M>N/pMMX

Pr[X=x]=eλλxx!,x=0,1,2,
as a limiting case of
Pr[X=x]=(Mx)px(1p)Mx,x=0,1,2,,M
by setting p=λ/M and letting M. Other answers here have addressed the intuition behind this relationship and provided computational guidance as well. But it is important that p=λ/M. You can't ignore this.
heropup
quelle
0

I can only attempt a part answer and it is about the intuition for Question 2, not a rigorous proof.

The binomial coefficient gives you the number of samples of size N, from M, without replacement and without order.

Here though M becomes so large that you may approximate the scenario as sampling with replacement in which case you get MN ordered samples. If you don't care about the order of the N objects chosen this reduces to MN/N! because those N objects can be ordered in N! ways.

PM.
quelle
-2

Balls falling through layers of pegs

I think this is the best example that intuitively explains how binomial distribution converges to normal with large number of balls. Here, each ball has equal probability of falling on either side of the peg in each layer and all the balls have to face same number of pegs. It can be easily seen that as the number of balls goes very high the distribution of balls in different sections will be like normal distribution.

My answer to your question 2 is same as the answer given by Lukasz.

samwise_the_wise
quelle
2
This isn't really answering the question, it answers another question ...
kjetil b halvorsen
I have tried to intuitively explain what asked in question 1. Can you please elaborate why you think it is not an answer to it?
samwise_the_wise
1
Sorry, I got the point now. I answered a completely different question. My bad.
samwise_the_wise
1
I see a heavily discretized version of a binomial distribution. Why should it be obvious that the distribution of balls at the bottom of this quincunx should be normal? Regardless of how many balls you drop through this machine, you will still get a distribution of counts in 13 bins: that cannot possibly be normal!
whuber