Ich habe einen Vektor mit einer Poisson-Verteilung wie folgt generiert:
x = rpois(1000,10)
Wenn ich ein Histogramm mit mache hist(x)
, sieht die Verteilung wie eine bekannte glockenförmige Normalverteilung aus. Ein Kolmogorov-Smirnoff-Test zeigt jedoch, ks.test(x, 'pnorm',10,3)
dass sich die Verteilung aufgrund des sehr geringen p
Werts erheblich von einer Normalverteilung unterscheidet .
Meine Frage ist also: Wie unterscheidet sich die Poisson-Verteilung von einer Normalverteilung, wenn das Histogramm einer Normalverteilung so ähnlich sieht?
Antworten:
Eine Poisson-Verteilung ist diskret, während eine Normalverteilung stetig ist, und eine Poisson-Zufallsvariable ist immer> = 0. Daher kann ein Kolgomorov-Smirnov-Test häufig den Unterschied feststellen.
Wenn der Mittelwert einer Poisson-Verteilung groß ist, ähnelt er einer Normalverteilung. Allerdings
rpois(1000, 10)
sieht nicht einmal , dass ähnlich eine Normalverteilung (es kurz bei 0 stoppt und der rechte Schwanz ist zu lang).Warum vergleichst du es10−−√
ks.test(..., 'pnorm', 10, 3)
eher alsks.test(..., 'pnorm', 10, sqrt(10))
? Der Unterschied zwischen 3 und ist gering, macht aber beim Vergleich von Verteilungen selbst einen Unterschied. Selbst wenn die Verteilung wirklich normal wäre, würden Sie eine anti-konservative p-Wert-Verteilung erhalten:quelle
hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))
zeigt, dass ein Test, der zwei identische Poisson-Verteilungen vergleicht, zu konservativ wäre.Dies ist viel einfacher zu verstehen:
Sie können die Binomialverteilung als die "Mutter" der meisten Verteilungen betrachten. Die Normalverteilung ist nur eine Annäherung an die Binomialverteilung, wenn n groß genug wird. Tatsächlich entdeckte Abraham de Moivre im Wesentlichen die Normalverteilung, während er versuchte, die Binomialverteilung zu approximieren, da die Berechnung der Binomialverteilung mit wachsendem n schnell überflüssig wurde, insbesondere wenn Sie keinen Computer haben ( Referenz ).
Die Poisson-Verteilung ist auch nur eine weitere Annäherung an die Binomialverteilung, aber sie ist viel besser als die Normalverteilung, wenn n groß und p klein ist, oder genauer, wenn der Durchschnitt ungefähr der Varianz entspricht (denken Sie daran, dass für die Binomialverteilung der Durchschnitt = np und var = gilt np (1-p)) ( Referenz ). Warum ist diese besondere Situation so wichtig? Anscheinend taucht es in der realen Welt sehr häufig auf und deshalb haben wir diese "spezielle" Annäherung. Das folgende Beispiel zeigt Szenarien, in denen die Poisson-Approximation wirklich gut funktioniert.
Beispiel
Wir haben ein Rechenzentrum von 100.000 Computern. Die Wahrscheinlichkeit, dass ein Computer heute ausfällt, beträgt 0,001. Im Durchschnitt fallen also np = 100 Computer im Rechenzentrum aus. Wie hoch ist die Wahrscheinlichkeit, dass heute nur 50 Computer ausfallen?
Tatsächlich geht die Approximationsqualität für die Normalverteilung den Bach runter, während wir uns in der Schlussphase der Verteilung befinden, aber Poisson hält weiterhin sehr gut. Betrachten wir im obigen Beispiel, wie hoch die Wahrscheinlichkeit ist, dass heute nur fünf Computer ausfallen werden.
Hoffentlich erhalten Sie so ein besseres intuitives Verständnis dieser drei Distributionen.
quelle
Eine etwas längere Entwicklung findet sich in diesem Blog .
quelle