Ich versuche, Zähldaten in R zu modellieren , die scheinbar unterdispers sind (Dispersionsparameter ~ .40). Dies ist wahrscheinlich der Grund, warum ein glm
with- family = poisson
oder ein negatives binomial ( glm.nb
) -Modell nicht signifikant sind. Wenn ich mir die Beschreibungen meiner Daten anschaue, habe ich nicht den typischen Versatz der Zähldaten und die Residuen in meinen beiden Versuchsbedingungen sind auch homogen.
Meine Fragen sind also:
Muss ich für meine Zähldaten sogar spezielle Regressionsanalysen verwenden, wenn sich meine Zähldaten nicht wirklich wie Zähldaten verhalten? Manchmal stelle ich eine Nichtnormalität fest (normalerweise aufgrund der Kurtosis), aber ich habe die Perzentil-Bootstrap-Methode zum Vergleichen der Mittelwerte verwendet (Wilcox, 2012), um die Nichtnormalität zu berücksichtigen. Können Methoden zur Zählung von Daten durch eine von Wilcox vorgeschlagene und im WRS-Paket umgesetzte robuste Methode ersetzt werden?
Wie kann ich die Unterdispersion berücksichtigen, wenn ich Regressionsanalysen für Zählungsdaten verwenden muss? Das Poisson und die negative Binomialverteilung nehmen eine höhere Streuung an, also sollte das nicht angemessen sein, oder? Ich habe darüber nachgedacht, die Quasi-Poisson- Verteilung anzuwenden , aber dies wird normalerweise für eine Überdispersion empfohlen. Ich habe etwas über Beta-Binomial- Modelle gelesen , die sowohl Über- als auch Unterdispersionen zu berücksichtigen
VGAM
scheinen. Die Autoren scheinen jedoch eine getitelte Poisson-Distribution zu empfehlen , aber ich kann sie nicht im Paket finden .
Kann jemand eine Prozedur für unterdisperse Daten empfehlen und vielleicht ein Beispiel für R-Code dafür bereitstellen?
Antworten:
Die beste --- und Standardmethode für den Umgang mit unterdispersen Poisson-Daten ist die Verwendung eines verallgemeinerten Poisson- oder vielleicht eines Hürdenmodells. Drei Parameterzählungsmodelle können auch für nicht dispergierte Daten verwendet werden. zB Faddy-Smith, Waring, Famoye, Conway-Maxwell und andere verallgemeinerte Zählermodelle. Der einzige Nachteil dabei ist die Interpretierbarkeit. Für allgemeine unterdisperse Daten sollte jedoch das verallgemeinerte Poisson verwendet werden. Es ist wie ein negatives Binomial für überdisperse Daten. In zwei meiner Bücher, Modelling Count Data (2014) und Negative Binomial Regression, 2. Auflage, (2011), die beide von Cambridge University Press herausgegeben wurden, werde ich darauf näher eingehen. In R ermöglicht das VGAM-Paket eine generalisierte Poisson-Regression (GP). Negative Werte des Dispersionsparameters zeigen eine Anpassung für eine Unterdispersion an. Sie können das GP-Modell auch für überdisperse Daten verwenden. Im Allgemeinen ist das NB-Modell jedoch besser. Wenn es darauf ankommt, ist es am besten, die Ursache für die Unterdispersion zu bestimmen und dann das am besten geeignete Modell auszuwählen, um damit umzugehen.
quelle
Ich bin einmal auf einen unterstreuten Poisson gestoßen, der mit der Häufigkeit zu tun hatte, mit der Leute ein soziales Spiel spielten. Es stellte sich heraus, dass dies an der extremen Regelmäßigkeit lag, mit der die Leute freitags spielten. Durch das Entfernen der Freitagsdaten habe ich das erwartete überdisperse Poisson erhalten. Vielleicht haben Sie die Möglichkeit, Ihre Daten auf ähnliche Weise zu bearbeiten.
quelle
Es gibt Situationen, in denen eine Unterdispersion mit einer Null-Inflation verschmilzt, was typisch ist für die Anzahl der bevorzugten Kinder bei Personen beiderlei Geschlechts. Ich habe bisher keine Möglichkeit gefunden, dies zu erfassen
quelle