Interpretation der Darstellung von Residuen gegen angepasste Werte aus der Poisson-Regression

25

Ich versuche, Daten mit einer GLM (Poisson-Regression) in R anzupassen. Wenn ich die Residuen gegen die angepassten Werte plottete, erzeugte die Plot mehrere (fast lineare mit einer leichten konkaven Kurve) "Linien". Was bedeutet das?

library(faraway)
modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + 
            freerepa + illness + actdays + hscore + chcond1 + chcond2,
            family=poisson, data=dvisits)
plot(modl)

Bildbeschreibung hier eingeben

jocelyn
quelle
Ich weiß nicht, ob Sie die Handlung hochladen können (manchmal können es Neulinge nicht), aber wenn nicht, könnten Sie Ihrer Frage zumindest einen Daten- und R-Code hinzufügen, damit die Leute sie bewerten können?
gung - Wiedereinsetzung von Monica
Jocelyn, ich habe deinen Beitrag mit Informationen aktualisiert, die du in einen Kommentar eingegeben hast. Ich habe dies auch markiert, homeworkda Sie über einen Auftrag gesprochen haben.
Chl
versuche plot (jitter (mod1)), um zu sehen, ob der Graph ein bisschen besser lesbar ist. Warum definieren Sie keine Residuen für uns und geben uns Ihre beste Vermutung als Interpretation des Graphen.
Michael Bishop
1
Bei der Frage gehe ich davon aus, dass Sie die Poisson-Verteilung und die Pois-Ausrichtung verstehen und wissen, was Ihnen eine grafische Darstellung von Residuen gegenüber angepassten Werten sagt (aktualisieren, wenn dies falsch ist), sodass Sie sich nur über das merkwürdige Auftreten der Punkte wundern in der Handlung. Da dies Hausaufgaben sind, antworten wir nicht ganz als unsere allgemeine Richtlinie, sondern geben Hinweise. Ich stelle fest, dass Sie viele Kovariaten haben. Ich frage mich, ob Sie 1 kontinuierliche und viele binäre Kovariaten haben.
gung - Reinstate Monica
1
Zwei Follow-ups von Gungs Kommentar. Versuchen Sie es zuerst table(dvisits$doctorco). Womit entsprechen die 10 gekrümmten Linien auf Ihrem Grundstück in dieser Tabelle? Machen Sie sich mit mehr als 5000 Beobachtungen auch keine Sorgen über die Anpassung von 13 Regressionskoeffizienten.
Gast

Antworten:

29

Dies ist das Aussehen, das Sie von einem solchen Plot erwarten, wenn die abhängige Variable diskret ist.

kyy=ky^ky^ky^y^1log(y^)ky

Mit einem ähnlichen, aber willkürlichen Modell (unter Verwendung kleiner Zufallskoeffizienten) können wir das betreffende Diagramm ziemlich genau wiedergeben :

# Create random data for a random model.
set.seed(17)
n <- 2^12                       # Number of cases
k <- 12                         # Number of variables
beta = rnorm(k, sd=0.2)         # Model coefficients
x <- matrix(rnorm(n*k), ncol=k) # Independent values
y <- rpois(n, lambda=exp(-0.5 + x %*% beta + 0.1*rnorm(n)))

# Wrap the data into a data frame, create a formula, and run the model.
df <- data.frame(cbind(y,x))    
s.formula <- apply(matrix(1:k, nrow=1), 1, function(i) paste("V", i+1, sep=""))
s.formula <- paste("y ~", paste(s.formula, collapse="+"))
modl <- glm(as.formula(s.formula), family=poisson, data=df)

# Construct a residual vs. prediction plot.
b <- coefficients(modl)
y.hat <- x %*% b[-1] + b[1]     # *Logs* of the predicted values
y.res <- y - exp(y.hat)         # Residuals
colors <- 1:(max(y)+1)          # One color for each possible value of y
plot(y.hat, y.res, col=colors[y+1], main="Residuals v. Fitted")

Reste vs.

whuber
quelle
6
(+1) Die Farbe ist ein wichtiger Indikator für das Geschehen.
Kardinal
Betrifft die obige Handlung also? In Texten (Statistische Modellierung für biomedizinische Forscher: Eine einfache Einführung in die Analyse komplexer Daten, Dupont, 2002, S. 316, z. B.) wird angegeben, dass das angepasste vs. Residuen) oder nicht (wenn Abweichung, zB). Mit einem begrenzten Bereich von Zählungen in der Ergebnisvariablen erhalten Sie diese Bänder, und wie in der obigen Darstellung sind sie nicht um die Linie bei y = 0 zentriert. Woher kennen wir die Restdarstellung des OP (oder die Beispieldarstellung) gemacht in dieser Antwort) zeigt an, dass das Modell die Daten gut anpasst?
Meg
1
@Meg Dieser Hinweis gilt nicht direkt für Reste eines GLM. Beachten Sie, dass das zur Veranschaulichung dieser Antwort verwendete Modell bekanntermaßen korrekt ist, da es zum Generieren der Daten verwendet wird.
Whuber
1/2: Danke @whuber. Ich verstehe für diese Antwort, dass das Modell bekanntermaßen korrekt ist, da die Daten von einer gegebenen Verteilung simuliert wurden, aber in der Praxis ist es unbekannt (wie im Beitrag des OP). Außerdem gilt das, was ich über Residuen geschrieben habe, für die POI-Regression (nicht alle GLMs, nein, aber diese). Als Referenz habe ich die POI-Regression speziell erörtert. Ich habe nur Texte mit standardisierten POI-Residuen (Pearson oder Abweichung, z. B.) gesehen, die um y = 0 zentriert sind, daher bin ich mir nicht sicher, wonach ich suchen soll, da für dieses Modell (was offensichtlich korrekt ist) die Darstellung aussieht nichts dergleichen.
Meg
2/2: Haben Sie eine Referenz, die POI-Residuen zufällig ausführlicher behandelt?
Meg
8

Manchmal stellen Streifen wie diese in Residuendiagrammen Punkte mit (fast) identischen beobachteten Werten dar, die unterschiedliche Vorhersagen erhalten. Schauen Sie sich Ihre Zielwerte an: Wie viele eindeutige Werte sind das? Wenn mein Vorschlag korrekt ist, sollte Ihr Trainingsdatensatz 9 eindeutige Werte enthalten.

Boris Gorelik
quelle
1
+1. (Tatsächlich wird ein Zehntel als einzelner Punkt in der Nähe der oberen rechten Ecke dargestellt.) Die Werte sind natürlich0,1,,9.
whuber
-3

Dieses Muster ist charakteristisch für eine inkorrekte Übereinstimmung der Familie und / oder der Verbindung. Wenn Sie übermäßig verteilte Daten haben, sollten Sie möglicherweise die negativen Binomialverteilungen (Anzahl) oder Gamma-Verteilungen (kontinuierliche Verteilungen) berücksichtigen. Außerdem sollten Sie Ihre Residuen gegen den transformierten linearen Prädiktor zeichnen, nicht gegen die Prädiktoren, wenn Sie verallgemeinerte lineare Modelle verwenden. Um den Poisson-Prädiktor zu transformieren, müssen Sie die 2-fache Quadratwurzel des linearen Prädiktors nehmen und Ihre Residuen dagegen plotten. Die Residuen sollten weiterhin nicht ausschließlich Pearson-Residuen, Devianz-Residuen und studentisierte Residuen sein.

Ryan Barnhart
quelle
3
Warum die 2-fache Quadratwurzel, wenn die kanonische Verknüpfung der Poisson-Familie in einem glm log ist? Sollte es nicht exp () des linearen Prädiktors sein? Aber ich sehe nicht, was das Problem ist, wenn Residuen gegen den linearen Prädiktor selbst geplottet werden. Ich denke, das wird hier gemacht - vielleicht könnten Sie das erweitern.
Peter Ellis
Würde es Ihnen etwas ausmachen zu erklären, welcher Aspekt des "Musters" Ihre Aufmerksamkeit auf eine mögliche Fehlspezifikation des Modells lenkt, Ryan? Es scheint eine subtile Sache zu sein, ist aber möglicherweise eine wichtige Erkenntnis.
whuber