Reste in Poisson-Regression

9

Zuur 2013 Anfängerleitfaden zu GLM & GLMM schlägt vor, eine Poisson-Regression zu validieren, indem Pearsons-Residuen gegen angepasste Werte aufgetragen werden. Zuur sagt, wir sollten nicht sehen, wie sich die Residuen mit zunehmenden angepassten Werten ausbreiten, wie bei einem beigefügten (handgezeichneten) Diagramm.

Aber ich dachte, ein Schlüsselmerkmal der Poisson-Verteilung ist, dass die Varianz mit zunehmendem Mittelwert zunimmt. Sollten wir also nicht mit zunehmenden Schwankungen der Residuen rechnen, wenn die angepassten Werte zunehmen?

Geben Sie hier die Bildbeschreibung ein

luciano
quelle

Antworten:

24

Die Unterscheidung ist klar, sobald Sie verstehen, was ein Pearson-Rest ist.

Sie haben Recht, dass bei einem Poisson-Modell die Varianz mit zunehmendem Mittelwert zunimmt.

Infolgedessen sollten gewöhnliche rohe Residuen ( ) eine Streuung aufweisen, die mit den angepassten Werten zunimmt (wenn auch nicht proportional).ri=yiμ^i

Pearson-Residuen sind jedoch Residuen geteilt durch die Quadratwurzel der Varianz gemäß dem Modell ( für ein Poisson-Modell). Dies bedeutet, dass bei korrektem Modell die Pearson-Residuen eine konstante Streuung aufweisen sollten.riP=yiμ^iμ^i

Restdiagramme aus einem einfachen simulierten Poisson-Regressionsmodell.  Linke Darstellung: Rohe Residuen gegen angepassten Mittelwert zeigen eine zunehmende Streuung mit dem Mittelwert.  Die Residuen weisen eine diagonale "Streifenbildung" auf, da die Daten diskret sind.  Rechtes Diagramm: Pearson-Residuen zeigen eine konstante Streuung als mittlere Änderungen, und die diagonalen Bänder sind jetzt gekrümmt.

Glen_b -Reinstate Monica
quelle
Können Sie klarstellen, warum Sie schreiben, dass wir durch die Quadratwurzel der Varianz dividieren, wenn Sie tatsächlich durch die Quadratwurzel des erwarteten Werts dividieren? Ich weiß, dass die Varianz dem Mittelwert für eine Poisson-Verteilung entspricht, aber sie ist eine Konstante für eine bestimmte Verteilung. Von welcher Varianz sprechen wir hier?
Kdarras
1
Die bedingte Verteilung der Antwort kann bei jeder Kombination von Prädiktoren unterschiedlich sein. Daher die Verwendung des Index für den Mittelwert; ist der Populationsmittelwert (und damit auch die Populationsvarianz) für die Beobachtung angesichts seiner Prädiktorwerte (der Werte seiner IVs). μii
Glen_b - Monica