Ich bin wirklich fassungslos, dass der Poisson GLM nicht ganzzahlige Zahlen akzeptiert! Aussehen:
Daten (Inhalt von data.txt
):
1 2001 0.25 1
1 2002 0.5 1
1 2003 1 1
2 2001 0.25 1
2 2002 0.5 1
2 2003 1 1
R-Skript:
t <- read.table("data.txt")
names(t) <- c('site', 'year', 'count', 'weight')
tm <- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t,
family = "quasipoisson") # also works with family="poisson"
years <- 2001:2003
plot(years, exp(c(0, tail(coef(tm), length(years)-1))), type = "l")
Der resultierende Jahresindex ist wie erwartet, dh 1-2-4
in Jahren 2001-2003
.
Aber wie ist es möglich, dass Poisson GLM nicht ganzzahlige Zahlen akzeptiert? Die Poisson-Verteilung war immer nur Ganzzahlen!
family="poisson"
, aber beachten Sie, dass Ihr Beispiel kein Poisson-GLM ist, da Sie diequasipoisson
Familie verwenden, die ohnehin nur von der Beziehung zwischen dem Mittelwert und der Varianz abhängt In diesem Fall sollte es keine Überraschung sein, nicht ganzzahlige Zahlen zu verwenden.Antworten:
Natürlich haben Sie Recht, dass die Poisson-Verteilung technisch nur für Ganzzahlen definiert ist. Die statistische Modellierung ist jedoch die Kunst guter Näherungen (" alle Modelle sind falsch "), und es gibt Zeiten, in denen es sinnvoll ist, nicht ganzzahlige Daten so zu behandeln, als wären sie [ungefähr] Poisson.
Wenn Sie beispielsweise zwei Beobachter aussenden, um dieselben Zählungsdaten aufzuzeichnen, kann es vorkommen, dass sich die beiden Beobachter nicht immer auf die Zählung einigen - einer könnte sagen, dass etwas dreimal passiert ist, während der andere sagte, dass es viermal passiert ist. Es ist dann schön, die Option zu haben, 3,5 zu verwenden, wenn Sie Ihre Poisson-Koeffizienten anpassen, anstatt zwischen 3 und 4 wählen zu müssen.
Computerisch gesehen könnte die Fakultät im Poisson die Arbeit mit Nicht-Ganzzahlen erschweren, aber es gibt eine kontinuierliche Verallgemeinerung der Fakultät. Darüber hinaus beinhaltet das Durchführen einer Maximum-Likelihood-Schätzung für das Poisson nicht einmal die Fakultätsfunktion, sobald Sie den Ausdruck vereinfacht haben .
quelle
Dies folgt aus der Methode der Momente, die wir in der Schule gelernt haben, und führt zu der von verallgemeinerten Schätzung von Gleichungen .
@ Aaron hat darauf hingewiesen, dass Sie tatsächlich eine Quasi-Poisson-Anpassung in Ihrem Code verwenden. Das heißt, die Varianz ist proportional zum Mittelwert
mit einem Dispersionsparameter , der aus den Daten geschätzt werden kann. Die Koeffizientenschätzungen sind gleich, ihre Standardfehler sind jedoch breiter. Dies ist ein flexiblerer und daher allgemeiner nützlicher Ansatz. (Beachten Sie auch, dass in solchen Situationen häufig Sandwich-Schätzer für die Varianz-Kovarianz-Matrix der Parameter verwendet werden, um robuste Standardfehler zu erhalten.)ϕ
quelle