Meine Frage zeigt mein schlechtes Verständnis der Poisson-Regression und der GLMs im Allgemeinen. Hier sind einige gefälschte Daten, um meine Frage zu veranschaulichen:
### some fake data
x=c(1:14)
y=c(0, 1, 2, 3, 1, 4, 9, 18, 23, 31, 20, 25, 37, 45)
Einige benutzerdefinierte Funktionen zur Rückgabe von pseudo-R2:
### functions of pseudo-R2
psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)}
predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)}
Passen Sie vier Modelle an: OLS, Gaußsches GLM mit Identitätsverknüpfung, Poisson GLM mit Protokollverknüpfung, Poisson GLM mit Identitätsverknüpfung
#### OLS MODEL
mdl.ols=lm(y~x)
summary(mdl.ols)
pred.ols = predict(mdl.ols)
summary(mdl.ols)$r.squared
predR2(y, pred.ols)
#### GLM MODEL, family=gaussian(link="identity")
mdl.guass <- glm(y~x, family=gaussian(link="identity"), maxit=500)
summary(mdl.guass)
pred.guass = predict(mdl.guass)
psuR2(mdl.guass$null.deviance, mdl.guass$deviance)
predR2(y, pred.guass)
#### GLM MODEL, family=possion (canonical link)
mdl.poi_log <- glm(y~x, family=poisson(link="log"), maxit=500)
summary(mdl.poi_log)
pred.poi_log= exp(predict(mdl.poi_log)) #transform
psuR2(mdl.poi_log$null.deviance, mdl.poi_log$deviance)
predR2(y, pred.poi_log)
#### GLM MODEL, family=poisson((link="identity")
mdl.poi_id <- glm(y~x, family=poisson(link="identity"), start=c(0.5,0.5), maxit=500)
summary(mdl.poi_id)
pred.poi_id = predict(mdl.poi_id)
psuR2(mdl.poi_id$null.deviance, mdl.poi_id$deviance)
predR2(y, pred.poi_id)
Zeichnen Sie schließlich die Vorhersagen:
#### Plot the Fit
plot(x, y)
lines(x, pred.ols)
lines(x, pred.guass, col="green")
lines(x,pred.poi_log, col="red")
lines(x,pred.poi_id, col="blue")
Ich habe 2 Fragen:
Es scheint, dass die Koeffizienten und Vorhersagen von OLS und Gaußschem GLM mit Identitätsverknüpfung genau gleich sind. Ist das immer wahr?
Ich bin sehr überrascht, dass sich die OLS-Schätzungen und -Vorhersagen stark vom Poisson GLM mit Identitätsverknüpfung unterscheiden . Ich dachte, beide Methoden würden versuchen, E (Y | X) zu schätzen. Wie sieht die Wahrscheinlichkeitsfunktion aus, wenn ich den Identitätslink für Poisson verwende?
quelle
Antworten:
Ja, sie sind dasselbe. MLE für einen Gaußschen Wert ist das kleinste Quadrat. Wenn Sie also einen Gaußschen GLM mit Identitätsverknüpfung ausführen, führen Sie OLS aus.
a) " Ich dachte, beide Methoden würden versuchen, E (Y | X) zu schätzen. "
In der Tat, aber die Art und Weise, wie die bedingte Erwartung als Funktion der Daten geschätzt wird, ist nicht dieselbe. Selbst wenn wir die Verteilung (und damit die Art und Weise, wie die Daten in die Wahrscheinlichkeit eingehen) ignorieren und nur in Bezug auf Mittelwert und Varianz über das GLM nachdenken (als wäre es nur eine gewichtete Regression), steigt die Varianz eines Poisson mit dem Mittelwert Die relativen Gewichte der Beobachtungen wären unterschiedlich.
b) " Wie sieht die Wahrscheinlichkeitsfunktion aus, wenn ich den Identitätslink für Poisson verwende? "
quelle