Bei der Modellierung von Anspruchszählungsdaten in einer Versicherungsumgebung begann ich mit Poisson, bemerkte dann aber eine Überdispersion. Ein Quasi-Poisson-Modell modellierte die größere Mittelwert-Varianz-Beziehung besser als das Basis-Poisson-Modell, aber ich bemerkte, dass die Koeffizienten sowohl im Poisson- als auch im Quasi-Poisson-Modell identisch waren.
Wenn dies kein Fehler ist, warum geschieht dies? Was ist der Vorteil von Quasi-Poisson gegenüber Poisson?
Dinge zu beachten:
- Die zugrunde liegenden Verluste sind überschüssig, was (glaube ich) das Funktionieren des Tweedie verhinderte - aber es war die erste Distribution, die ich ausprobierte. Ich habe auch NB-, ZIP-, ZINB- und Hurdle-Modelle untersucht, aber trotzdem festgestellt, dass der Quasi-Poisson die beste Passform bietet.
- Ich habe mittels Dispersionstest im VRE-Paket auf Überdispersion getestet. Mein Dispersionsparameter betrug ungefähr 8,4 mit einem p-Wert bei der 10 ^ -16-Größe.
- Ich verwende glm () mit family = poisson oder quasipoisson und einem Protokolllink für Code.
- Beim Ausführen des Poisson-Codes erhalte ich die Warnung "In dpois (y, mu, log = TRUE): nicht ganzzahliges x = ...".
Hilfreiche SE-Threads nach Ben's Anleitung:
counts/exposure
. Stattdessen sollten Sieoffset(log(exposure))
Ihren Modellen einen offset ( ) - Term hinzufügen .Antworten:
Dies ist fast ein Duplikat ; Die verknüpfte Frage erklärt, dass Sie keine Koeffizientenschätzungen, Restabweichungen oder Freiheitsgrade für Änderungen erwarten sollten. Das einzige, was sich beim Übergang von Poisson zu Quasi-Poisson ändert, ist, dass ein zuvor auf 1 festgelegter Skalenparameter aus einer Schätzung der Residuenvariabilität / -anpassungsschwäche berechnet wird (normalerweise geschätzt über die Summe der Quadrate der Pearson-Residuen) (χ2 ) dividiert durch den Rest-df, obwohl die asymptotische Verwendung der Restabweichung das gleiche Ergebnis ergibt). Das Ergebnis ist, dass die Standardfehler mit der Quadratwurzel dieses Skalenparameters skaliert werden, wobei sich auch die Konfidenzintervalle und ändernp -Werte.
Der Vorteil von Quasi-Likelihood besteht darin, dass der grundlegende Irrtum behoben wird, wenn angenommen wird, dass es sich bei den Daten um Poisson handelt (= homogene, unabhängige Zählungen). Wenn Sie das Problem auf diese Weise beheben, werden möglicherweise andere Probleme mit den Daten maskiert. (Siehe unten.) Quasi-Wahrscheinlichkeit ist eine Möglichkeit, mit Überdispersion umzugehen. Wenn Sie die Überdispersion nicht auf irgendeine Weise angehen, sind Ihre Koeffizienten angemessen, aber Ihre Schlussfolgerung (CIs,p -Werte usw.) wird Müll sein.
quelle