Wie unterscheidet sich die Poisson-Verteilung von der Normalverteilung?

29

Ich habe einen Vektor mit einer Poisson-Verteilung wie folgt generiert:

x = rpois(1000,10)

Wenn ich ein Histogramm mit mache hist(x), sieht die Verteilung wie eine bekannte glockenförmige Normalverteilung aus. Ein Kolmogorov-Smirnoff-Test zeigt jedoch, ks.test(x, 'pnorm',10,3)dass sich die Verteilung aufgrund des sehr geringen pWerts erheblich von einer Normalverteilung unterscheidet .

Meine Frage ist also: Wie unterscheidet sich die Poisson-Verteilung von einer Normalverteilung, wenn das Histogramm einer Normalverteilung so ähnlich sieht?

Luciano
quelle
Außerdem (als Add-In zu Davids Antwort): Lesen Sie dies ( stats.stackexchange.com/a/2498/603 ) und stellen Sie Ihre Stichprobengröße auf 100 ein und sehen Sie, welchen Unterschied sie macht.
user603

Antworten:

20
  1. Eine Poisson-Verteilung ist diskret, während eine Normalverteilung stetig ist, und eine Poisson-Zufallsvariable ist immer> = 0. Daher kann ein Kolgomorov-Smirnov-Test häufig den Unterschied feststellen.

  2. Wenn der Mittelwert einer Poisson-Verteilung groß ist, ähnelt er einer Normalverteilung. Allerdings rpois(1000, 10)sieht nicht einmal , dass ähnlich eine Normalverteilung (es kurz bei 0 stoppt und der rechte Schwanz ist zu lang).

  3. Warum vergleichst du es ks.test(..., 'pnorm', 10, 3)eher als ks.test(..., 'pnorm', 10, sqrt(10))? Der Unterschied zwischen 3 und ist gering, macht aber beim Vergleich von Verteilungen selbst einen Unterschied. Selbst wenn die Verteilung wirklich normal wäre, würden Sie eine anti-konservative p-Wert-Verteilung erhalten:10

    set.seed(1)
    
    hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))
    

Bildbeschreibung hier eingeben

David Robinson
quelle
3
Oft sehen die Leute etwas vage Symmetrisches und nehmen an, dass es "normal" aussieht. Ich vermute das was @Ross gesehen hat.
Fraijo
2
Beachten Sie, dass der KS-Test im Allgemeinen kontinuierliche Verteilungen voraussetzt. Daher kann es (auch) etwas suspekt sein, sich in diesem Fall auf den angegebenen p-Wert zu stützen.
Kardinal
1
True: Running hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))zeigt, dass ein Test, der zwei identische Poisson-Verteilungen vergleicht, zu konservativ wäre.
David Robinson
@ Fraijo: in der Tat. Wir haben eine allgemeinere Frage zu diesem Thema: Wenn mein Histogramm eine glockenförmige Kurve zeigt, kann ich sagen, dass meine Daten normal verteilt sind?
Silberfischchen
17

Dies ist viel einfacher zu verstehen:

Sie können die Binomialverteilung als die "Mutter" der meisten Verteilungen betrachten. Die Normalverteilung ist nur eine Annäherung an die Binomialverteilung, wenn n groß genug wird. Tatsächlich entdeckte Abraham de Moivre im Wesentlichen die Normalverteilung, während er versuchte, die Binomialverteilung zu approximieren, da die Berechnung der Binomialverteilung mit wachsendem n schnell überflüssig wurde, insbesondere wenn Sie keinen Computer haben ( Referenz ).

Die Poisson-Verteilung ist auch nur eine weitere Annäherung an die Binomialverteilung, aber sie ist viel besser als die Normalverteilung, wenn n groß und p klein ist, oder genauer, wenn der Durchschnitt ungefähr der Varianz entspricht (denken Sie daran, dass für die Binomialverteilung der Durchschnitt = np und var = gilt np (1-p)) ( Referenz ). Warum ist diese besondere Situation so wichtig? Anscheinend taucht es in der realen Welt sehr häufig auf und deshalb haben wir diese "spezielle" Annäherung. Das folgende Beispiel zeigt Szenarien, in denen die Poisson-Approximation wirklich gut funktioniert.

Beispiel

Wir haben ein Rechenzentrum von 100.000 Computern. Die Wahrscheinlichkeit, dass ein Computer heute ausfällt, beträgt 0,001. Im Durchschnitt fallen also np = 100 Computer im Rechenzentrum aus. Wie hoch ist die Wahrscheinlichkeit, dass heute nur 50 Computer ausfallen?

Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7

Tatsächlich geht die Approximationsqualität für die Normalverteilung den Bach runter, während wir uns in der Schlussphase der Verteilung befinden, aber Poisson hält weiterhin sehr gut. Betrachten wir im obigen Beispiel, wie hoch die Wahrscheinlichkeit ist, dass heute nur fünf Computer ausfallen werden.

Binomial: 2.96E-36 
Poisson: 3.1E-36
Normal: 9.6E-22

Hoffentlich erhalten Sie so ein besseres intuitives Verständnis dieser drei Distributionen.

Shital Shah
quelle
Was für eine wunderbare und großartige Antwort! Vielen Dank. :)
Bora M. Alper
11

λnpnpn=λ/n

Eine etwas längere Entwicklung findet sich in diesem Blog .

XnBinomial(n,λ/n) k

P(Xn=k)=n!k!(nk)!(λn)k(1λn)nk=n!nk(nk)!1λkk!(1λ/n)neλ(1λ/n)k1.

nk

P(Xn=k)eλλkk!,
n(1λ/n)neλ

npdN(np,np(1p))nppn=λ/n0λn

muratoa
quelle
(+1) Willkommen auf der Seite. Ich habe ein paar Änderungen vorgenommen. Bitte überprüfen Sie, dass ich keine Fehler in den Prozess eingeführt habe. Ich war mir nicht ganz sicher, was ich mit der allerletzten Phrase im letzten Satz anfangen sollte. Einige zusätzliche Erläuterungen könnten hilfreich sein.
Kardinal
1
npnλpλ
1
nλpn1/2
Vielen Dank. Ich verstehe, was du jetzt sagen wolltest. Generell stimme ich dem Vorbehalt zu, dass bei der Beziehung zwischen den Parametern, die als fest angesehen werden und sich von den anderen unterscheiden, einige Sorgfalt geboten ist. :)
Kardinal
λ