Ich habe einen Datensatz, von dem ich erwarten würde, dass er einer Poisson-Verteilung folgt, aber er ist etwa dreifach überdispers. Gegenwärtig modelliere ich diese Überdispersion mit dem folgenden Code in R.
## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)
Optisch scheint dies sehr gut zu meinen empirischen Daten zu passen. Wenn ich mit der Anpassung zufrieden bin, gibt es einen Grund, warum ich etwas Komplexeres tun sollte, beispielsweise die Verwendung einer negativen Binomialverteilung, wie hier beschrieben ? (Wenn ja, würden alle Hinweise oder Links dazu sehr geschätzt).
Oh, und mir ist bewusst, dass dies eine leicht gezackte Verteilung erzeugt (aufgrund der Multiplikation mit drei), aber das sollte für meine Anwendung keine Rolle spielen.
Update: Für alle, die diese Frage suchen und finden, ist hier eine einfache R-Funktion zum Modellieren eines überdispersen Poissons unter Verwendung einer negativen Binomialverteilung. Stellen Sie d auf das gewünschte Verhältnis von Mittelwert zu Varianz ein:
rpois.od<-function (n, lambda,d=1) {
if (d==1)
rpois(n, lambda)
else
rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}
(über die R-Mailingliste: https://stat.ethz.ch/pipermail/r-help/2002-Juni/022425.html )
quelle
Wenn Ihr Mittelwert für den Poisson 1500 ist, dann sind Sie einer Normalverteilung sehr nahe. Sie können versuchen, dies als Näherung zu verwenden und dann den Mittelwert und die Varianz separat zu modellieren.
quelle