Poisson oder Quasi-Poisson in einer Regression mit Zähldaten und Überdispersion?

Ich habe Zähldaten (Nachfrage- / Angebotsanalyse mit Zählung der Anzahl der Kunden, abhängig von - möglicherweise - vielen Faktoren). Ich habe eine lineare Regression mit normalen Fehlern versucht, aber mein QQ-Plot ist nicht wirklich gut. Ich habe versucht, die Antwort logarithmisch umzuwandeln: wieder ein schlechtes QQ-Diagramm.

Jetzt versuche ich eine Regression mit Poisson-Fehlern. Mit einem Modell mit allen signifikanten Variablen erhalte ich:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

Die verbleibende Abweichung ist größer als die verbleibenden Freiheitsgrade: Ich habe eine Überdispersion.

Woher weiß ich, ob ich Quasipoisson verwenden muss? Was ist das Ziel von Quasipoisson in diesem Fall? Ich habe diesen Rat in "The R Book" von Crawley gelesen, sehe aber weder den Sinn noch eine große Verbesserung in meinem Fall.

count-data poisson-regression overdispersion quasi-likelihood Antonin
quelle

Antworten:

Wenn Sie versuchen zu bestimmen, welche Art von glm-Gleichung Sie schätzen möchten, sollten Sie plausible Beziehungen zwischen dem erwarteten Wert Ihrer Zielvariablen unter Berücksichtigung der Variablen auf der rechten Seite (rhs) und der Varianz der Zielvariablen unter Berücksichtigung der Variablen auf der rechten Seite (rhs) berücksichtigen. Hierbei können Darstellungen der Residuen im Vergleich zu den angepassten Werten aus Ihrem Normalmodell hilfreich sein. Bei der Poisson-Regression wird angenommen, dass die Varianz dem erwarteten Wert entspricht. eher restriktiv, ich denke du wirst zustimmen. Bei einer "normalen" linearen Regression wird davon ausgegangen, dass die Varianz unabhängig vom erwarteten Wert konstant ist. Für eine Quasi-Poisson-Regression wird angenommen, dass die Varianz eine lineare Funktion des Mittelwerts ist; für negative binomiale Regression eine quadratische Funktion.

Sie sind jedoch nicht auf diese Beziehungen beschränkt. Die Angabe einer "Familie" (mit Ausnahme von "Quasi") bestimmt die Beziehung zwischen Mittelwert und Varianz. Ich habe das R-Buch nicht, aber ich stelle mir vor, es hat eine Tabelle, die die Familienfunktionen und die entsprechenden Mittelwert-Varianz-Beziehungen zeigt. Für die "Quasi" -Familie können Sie eine von mehreren Mittelwert-Varianz-Beziehungen angeben und sogar Ihre eigene schreiben. siehe die R-Dokumentation . Es kann sein, dass Sie eine viel bessere Übereinstimmung finden, indem Sie einen nicht standardmäßigen Wert für die Mittelwertvarianzfunktion in einem "Quasi" -Modell angeben.

Sie sollten auch auf den Bereich der Zielvariablen achten. In Ihrem Fall handelt es sich um nicht negative Zähldaten. Wenn Sie einen beträchtlichen Bruchteil niedriger Werte haben - 0, 1, 2 -, passen die kontinuierlichen Verteilungen wahrscheinlich nicht gut, aber wenn Sie dies nicht tun, ist es nicht sinnvoll, eine diskrete Verteilung zu verwenden. Es ist selten, dass Sie Poisson- und Normalverteilungen als Konkurrenten betrachten würden.

Bogenschütze
quelle

Ja, du hast Recht. Hier habe ich Zähldaten aber mit großen Werten. Ich sollte eine kontinuierliche Verteilung verwenden.

Antonin

Sie haben Recht, diese Daten sind möglicherweise übermäßig verteilt. Quasipoisson ist eine Abhilfe: Es schätzt auch einen Skalierungsparameter (der für Poisson-Modelle festgelegt ist, da die Varianz auch der Mittelwert ist) und liefert eine bessere Anpassung. Es ist jedoch nicht mehr die maximale Wahrscheinlichkeit, was Sie dann tun, und bestimmte Modelltests und Indizes können nicht verwendet werden. Eine gute Diskussion findet sich in Venables und Ripley, Modern Applied Statistics with S (Abschnitt 7.5) .

Eine Alternative ist die Verwendung eines negativen Binomialmodells, z. B. die glm.nb()Funktion in package MASS.

Momo
quelle

Aber bin ich in diesem Fall "gezwungen", Quasipoisson zu verwenden? Ich frage, da mein Nicht-Quasipoisson-Modell in dem Sinne besser ist (nur Grundvergiftung), dass mehr Variablen signifikant sind.

Antonin

Ist das nicht sinnvoll? Wenn ich ein Regressionsmodell verwendet habe, bei dem ich davon ausgegangen bin, dass Sigma .00001 ist, anstatt die Schätzung aus den Daten zu verwenden (sagen wir mal 2.3), dann werden die Dinge natürlich bedeutender.

Dason

Antonin: Ich würde sagen, nur weil mehr Variablen von Bedeutung sind, macht es die Dinge nicht "besser". Dies könnte, wie Dason betonte, leicht zu Fehlalarmen führen, wenn Sie die Fehlervarianz unterschätzen. Ich würde in diesem Fall auf jeden Fall eine Quasi-Methode oder das negative Binomial verwenden, aber wenn ich Ihre Arbeit nicht überprüfe, werden Sie nicht gezwungen, etwas zu tun;)

Momo

Vielen Dank für Ihre Antworten! Kennen Sie eine Möglichkeit, Quasi-Poisson- und negative Binomialmodelle zu vergleichen? In den meisten Büchern stellen sie die Modelle vor, erklären aber nicht, wie man zwischen ihnen wählt.

Antonin

Aus der Ausgabe geht hervor, dass Sie 53-17 = 16 Parameter an 53 + 1 = 54 Datenpunkte anpassen. Ist das richtig? Wenn ja, jede Methode, die auf asymptotischen Annäherungen beruht, einschließlich der Verwendung von glm()und die möglicherweise glm.nb()schlecht kalibrierte Schlussfolgerungen liefert; Es wäre vernünftig zu erwarten, dass die Genauigkeit überbewertet wird. Es wäre hilfreich, mehr darüber zu erfahren, warum Sie diese Regression durchführen möchten. Stattdessen können Methoden verwendet werden, die in kleinen Beispielsituationen eine bessere Leistung erbringen.

Gast