Parametrische Modellierung der Varianz von Zähldaten

12

Ich möchte einige Daten modellieren, bin mir jedoch nicht sicher, welchen Modelltyp ich verwenden kann. Ich habe Zähldaten und möchte ein Modell, das parametrische Schätzungen sowohl des Mittelwerts als auch der Varianz der Daten liefert. Das heißt, ich habe verschiedene Vorhersagefaktoren und möchte feststellen, ob einer von ihnen die Varianz beeinflusst (nicht nur den Gruppenmittelwert).

Ich weiß, dass die Poisson-Regression nicht funktioniert, da die Varianz gleich dem Mittelwert ist. Diese Annahme ist in meinem Fall nicht gültig, daher weiß ich, dass es zu einer Überdispersion kommt. Ein negatives Binomialmodell generiert jedoch nur einen einzigen Überdispersionsparameter, nicht einen, der von den Prädiktoren im Modell abhängt. Welches Modell kann das?

Zusätzlich wäre ein Verweis auf ein Buch oder eine Veröffentlichung, in der das Modell und / oder ein R-Paket, das das Modell implementiert, erörtert werden, wünschenswert.

Brian Diggs
quelle
1
Woher wissen Sie, dass es zu einer Überdispersion kommt, ohne zuerst die Poisson-Regression durchzuführen? Schließlich ist der Vergleich der Varianz der Roh- (Antwort-) Werte mit ihrem Mittelwert nicht relevant: Entscheidend ist die Anpassungsgüte des Poisson-Modells (dies ist das Analogon zur Bewertung der Verteilung von Residuen in einem linearen Modell im Vergleich zur Bewertung die Verteilung der Antwortvariablen). Eine andere Möglichkeit besteht darin, dass die Verknüpfung zwischen den unabhängigen Variablen und der Antwort selbst in einem wunderschön genauen Poisson-Modell den Anschein einer Überdispersion erwecken kann.
whuber
2
@whuber Das ist ein fairer Punkt. Für einen einzelnen kategorialen Prädiktor, der die Varianz und den Mittelwert der Untergruppen betrachtet, wäre dies ausreichend, um eine Überdispersion zu erkennen, für eine multivariate Poisson-Regression jedoch nicht. Aus Gründen der Argumentation nehmen wir an, dass sowohl eine Poisson-Regression als auch eine negative binomale Regression durchgeführt wurden und das negative Binom über einen Anova-Modellvergleich eine bessere Anpassung zeigt. Das sollte auf Überdispersion hindeuten. Wie kann die Varianz / Überdispersion dann parametrisch und nicht als Konstante modelliert werden?
Brian Diggs
1
Ich denke, es gibt ein Kapitel in McCullagh und Nelder, Verallgemeinerte lineare Modelle, 2. Auflage , das dies behandelt (aber meine Kopie ist in Arbeit) kann der Titel des Kapitels sein. Sie wenden iterativ gewichtete kleinste Quadrate an, obwohl es kein entsprechendes Wahrscheinlichkeitsmodell gibt.
Karl
In Kapitel 10 von McCullagh und Nelder wird die gemeinsame Modellierung von Mittelwert und Streuung erörtert, dh die Parametrisierung sowohl des Mittelwerts als auch der Varianz. Erweiterte Quasi-Wahrscheinlichkeit ist das Hauptinstrument, aber in einigen Situationen kann es Bedenken hinsichtlich dieser Methode geben
Gast

Antworten:

9

Sie können den negativen Binomialdispersionsparameter selbst als Funktion von Variablen und Parametern modellieren, indem Sie das gamlss-Paket in R verwenden. Ich stelle einen Auszug aus einer Einführung dazu bereit:

Warum sollte ich GAMLSS verwenden?

Wenn Ihre Antwortvariable aus diskreten Daten besteht, ist es sehr wahrscheinlich, dass die Poisson-Verteilung nicht gut passt. GAMLSS bietet verschiedene diskrete Verteilungen (einschließlich des negativen Binomials), die Sie ausprobieren können. Der Dispersionsparameter kann auch in Abhängigkeit von erklärenden Variablen modelliert werden.

Die Website www.gamlss.org enthält Dokumentationen und Links zu verschiedenen Artikeln über die im Paket verwendeten Ansätze.

Bogenschütze
quelle
Beide Antworten sind hilfreich und enthalten gute Referenzen. Ich vergebe das Kopfgeld für dieses eine, weil (a) es dem anderen vier Minuten vorausging und (b) die Gamlss-Lösung für mich neu ist (ich kenne mich mit nbreg aus). Aber danke an @timbp für die gute Antwort. Ich hoffe, Sie werden weiterhin einen Beitrag zu unserer Website leisten.
whuber
2
@whuber, ich war auch hin- und hergerissen, was ich als "die" Antwort annehmen sollte, da beide sehr hilfreich waren. Ich habe mich für dieses entschieden, da es eine R-Paketreferenz enthielt, die ich verwenden kann. Die Buchreferenz in der anderen Antwort war gut gelesen und sollte nicht abgezinst werden. Vielen Dank, dass Sie die Prämie angeboten haben, aus der diese beiden guten Antworten hervorgegangen sind.
Brian Diggs
9

Stata bietet den Befehl -gnbreg-, mit dem Sie den Dispersionsparameter modellieren können. Sie können die Stata-Hilfe für den Befehl unter anzeigen http://www.stata.com/help.cgi?nbreg

Stata nennt dies das generalisierte negative Binomialmodell. Joseph Hilbe diskutiert es in seinem Buch "Negative Binomial Regression", Abschnitt 10.4, als "NB-H: Heterogene negative Binomial Regression".

Timbp
quelle