Identische Koeffizienten, geschätzt in Poisson vs. Quasi-Poisson-Modell

12

Bei der Modellierung von Anspruchszählungsdaten in einer Versicherungsumgebung begann ich mit Poisson, bemerkte dann aber eine Überdispersion. Ein Quasi-Poisson-Modell modellierte die größere Mittelwert-Varianz-Beziehung besser als das Basis-Poisson-Modell, aber ich bemerkte, dass die Koeffizienten sowohl im Poisson- als auch im Quasi-Poisson-Modell identisch waren.

Wenn dies kein Fehler ist, warum geschieht dies? Was ist der Vorteil von Quasi-Poisson gegenüber Poisson?

Dinge zu beachten:

  • Die zugrunde liegenden Verluste sind überschüssig, was (glaube ich) das Funktionieren des Tweedie verhinderte - aber es war die erste Distribution, die ich ausprobierte. Ich habe auch NB-, ZIP-, ZINB- und Hurdle-Modelle untersucht, aber trotzdem festgestellt, dass der Quasi-Poisson die beste Passform bietet.
  • Ich habe mittels Dispersionstest im VRE-Paket auf Überdispersion getestet. Mein Dispersionsparameter betrug ungefähr 8,4 mit einem p-Wert bei der 10 ^ -16-Größe.
  • Ich verwende glm () mit family = poisson oder quasipoisson und einem Protokolllink für Code.
  • Beim Ausführen des Poisson-Codes erhalte ich die Warnung "In dpois (y, mu, log = TRUE): nicht ganzzahliges x = ...".

Hilfreiche SE-Threads nach Ben's Anleitung:

  1. Grundlegende Berechnung von Offsets in der Poisson-Regression
  2. Einfluss von Offsets auf Koeffizienten
  3. Unterschied zwischen der Verwendung von Belichtung als Covariate vs Offset
Frank H.
quelle
Wäre eine Tweedie-Distribution nicht eine bessere Idee?
Duffymo
Versuchte Tweedie von Anfang an, aber unsere Verlustdaten sind nicht gemahlen, sondern überschüssig. Es wurden auch Negative Binomial-, ZIP- und Hürdenmodelle getestet, um die Zählungsstreuung zu beheben.
Frank H.
1
Können Sie uns etwas näher erläutern, woher die nicht ganzzahligen Werte in Ihren Daten stammen?
Ben Bolker
6
Sie sollten Frequenzen / Raten nicht durch Berechnen von Verhältnissen von modellieren counts/exposure. Stattdessen sollten Sie offset(log(exposure))Ihren Modellen einen offset ( ) - Term hinzufügen .
Ben Bolker
1
Dies ist praktisch, aber am wichtigsten, wenn Sie Poisson-Modelle (keine Quasi-Poisson-Modelle) erstellen. Ich kenne keine gute Referenz aus nächster Nähe; Wenn Sie hier auf CrossValidated keine relevante Antwort finden, ist dies eine gute Folgefrage.
Ben Bolker

Antworten:

25

Dies ist fast ein Duplikat ; Die verknüpfte Frage erklärt, dass Sie keine Koeffizientenschätzungen, Restabweichungen oder Freiheitsgrade für Änderungen erwarten sollten. Das einzige, was sich beim Übergang von Poisson zu Quasi-Poisson ändert, ist, dass ein zuvor auf 1 festgelegter Skalenparameter aus einer Schätzung der Residuenvariabilität / -anpassungsschwäche berechnet wird (normalerweise geschätzt über die Summe der Quadrate der Pearson-Residuen) (χ2) dividiert durch den Rest-df, obwohl die asymptotische Verwendung der Restabweichung das gleiche Ergebnis ergibt). Das Ergebnis ist, dass die Standardfehler mit der Quadratwurzel dieses Skalenparameters skaliert werden, wobei sich auch die Konfidenzintervalle und ändernp-Werte.

Der Vorteil von Quasi-Likelihood besteht darin, dass der grundlegende Irrtum behoben wird, wenn angenommen wird, dass es sich bei den Daten um Poisson handelt (= homogene, unabhängige Zählungen). Wenn Sie das Problem auf diese Weise beheben, werden möglicherweise andere Probleme mit den Daten maskiert. (Siehe unten.) Quasi-Wahrscheinlichkeit ist eine Möglichkeit, mit Überdispersion umzugehen. Wenn Sie die Überdispersion nicht auf irgendeine Weise angehen, sind Ihre Koeffizienten angemessen, aber Ihre Schlussfolgerung (CIs,p-Werte usw.) wird Müll sein.

  • Wie Sie oben kommentieren, gibt es viele verschiedene Ansätze zur Überdispersion (Tweedie, verschiedene negative binomische Parametrisierungen, Quasi-Wahrscheinlichkeit, Null-Inflation / Veränderung).
  • Bei einem Überdispersionsfaktor von> 5 (8,4) würde ich mir ein wenig Gedanken darüber machen, ob dies auf eine Art von Modellfehlanpassung zurückzuführen ist (Ausreißer, Null-Inflation [die Sie bereits ausprobiert haben], Nichtlinearität) als repräsentative Heterogenität. Mein allgemeiner Ansatz ist die grafische Untersuchung der Rohdaten und die Regressionsdiagnose ...
Ben Bolker
quelle
Sehr hilfreich. Ich sehe jetzt, dass die p-Werte für die Variablen und Ebenen der Variablen im Poisson aufgrund der von Ihnen erwähnten Skalierung statistisch viel signifikanter sind als für das Quasi-Poisson. Ich habe auf Ausreißer getestet, aber dies war kein Problem. Was können andere Probleme sein, die durch Überdispersion maskiert werden, oder Beispiele für solche Ansätze, um diese Probleme zu finden?
Frank H.
Meist Nichtlinearität der Antworten auf der Link- (Log-) Skala; Überprüfen Sie die Diagramme Residuen vs. angepasste und Residuen vs. Prädiktorvariablen, um festzustellen, ob Muster vorhanden sind.
Ben Bolker
1
+1 Nicely laid out! I really appreciate the clarity of your first paragraph.
Alexis