Wie gehe ich mit Überdispersion in der Poisson-Regression um: Quasi-Wahrscheinlichkeit, negativer binomialer GLM oder zufälliger Effekt auf Subjektebene?

Poisson-Regression ist nur ein GLM:

Die Leute sprechen oft von der parametrischen Begründung für die Anwendung der Poisson-Regression. Tatsächlich ist die Poisson-Regression nur ein GLM. Das bedeutet, dass die Poisson-Regression für alle Arten von Daten (Zählungen, Bewertungen, Prüfungsergebnisse, binäre Ereignisse usw.) gerechtfertigt ist , wenn zwei Annahmen erfüllt sind: 1) Das Protokoll des Mittelwert-Ergebnisses ist eine lineare Kombination der Prädiktoren und 2) Die Varianz des Ergebnisses entspricht dem Mittelwert . Diese beiden Bedingungen werden jeweils als Mittelwertmodell und Mittelwertvarianzbeziehung bezeichnet.

Die Annahme des Mittelwertmodells kann mithilfe komplexer Anpassungen für Prädiktoren etwas gelockert werden. Das ist schön, weil die Link-Funktion die Interpretation der Parameter beeinflusst; Die Feinheit der Interpretation macht den Unterschied zwischen der Beantwortung einer wissenschaftlichen Frage und dem völligen Ausweichen der Verbraucher Ihrer statistischen Analyse. In einem anderen SE-Beitrag diskutiere ich die Nützlichkeit von Log-Transformationen für die Interpretation.

Es stellt sich jedoch heraus, dass die zweite Annahme (Mittelwert-Varianz-Beziehung) starke Auswirkungen auf die Inferenz hat. Wenn die Mittelwert-Varianz-Beziehung nicht wahr ist, werden die Parameterschätzungen nicht verzerrt . Die Standardfehler, Konfidenzintervalle, p-Werte und Vorhersagen sind jedoch alle falsch kalibriert. Das heißt, Sie können den Fehler vom Typ I nicht kontrollieren und haben möglicherweise eine suboptimale Leistung.

Was wäre, wenn die Mittelwertvarianz gelockert werden könnte, sodass die Varianz einfach proportional zum Mittelwert ist? Negative binomische Regression und Quasipoisson-Regression tun dies.

Quasipoisson-Modelle

Quasipoisson-Modelle basieren nicht auf der Wahrscheinlichkeit. Sie maximieren eine "Quasilikelihood", die eine Poisson-Wahrscheinlichkeit bis zu einer proportionalen Konstante ist. Diese proportionale Konstante ist zufällig die Dispersion. Die Dispersion gilt als a störend empfundenParameter. Während die Maximierungsroutine eine Schätzung des Störparameters liefert, ist diese Schätzung lediglich ein Artefakt der Daten und kein Wert, der auf die Grundgesamtheit verallgemeinert wird. Die Dispersion dient nur dazu, die SEs der Regressionsparameter zu "schrumpfen" oder zu "verbreitern", je nachdem, ob die Varianz proportional kleiner oder größer als der Mittelwert ist. Da die Streuung als Störparameter behandelt wird, weisen Quasipoisson-Modelle eine Vielzahl robuster Eigenschaften auf: Die Daten können tatsächlich heteroskedastisch sein (und erfüllen nicht die Proportionalmittelwert-Varianz-Annahme), und das Mittelwert-Modell muss keine geringen Abhängigkeitsquellen aufweisen genau richtig sein, aber die 95% CIs für die Regressionsparameter sind asymptotisch korrekt.Wenn es Ihr Ziel bei der Datenanalyse ist, die Assoziation zwischen einer Reihe von Regressionsparametern und dem Ergebnis zu messen, sind normalerweise Quasipoisson-Modelle der richtige Weg. Eine Einschränkung dieser Modelle besteht darin, dass sie keine Vorhersageintervalle liefern können, die Pearson-Residuen nicht viel darüber aussagen, wie genau das mittlere Modell ist, und dass Informationskriterien wie der AIC oder der BIC diese Modelle nicht effektiv mit anderen Modelltypen vergleichen können.

Negative Binomialmodelle

Es ist am nützlichsten, die negative binomische Regression als 2-Parameter-Poisson-Regression zu verstehen. Das mittlere Modell ist dasselbe wie in Poisson- und Quasipoisson-Modellen, bei denen das Protokoll des Ergebnisses eine lineare Kombination von Prädiktoren ist. Darüber hinaus modelliert der Parameter "Skala" eine Mittelwert-Varianz-Beziehung, bei der die Varianz wie zuvor lediglich proportional zum Mittelwert ist. Im Gegensatz zu Quasipoisson-Modellen handelt es sich bei diesem Modelltyp jedoch um ein genau wahrscheinlichkeitsbasiertes Verfahren. In diesem Fall ist die Dispersion ein tatsächlicher Parameter, der in gewissem Maße für die Bevölkerung verallgemeinerbar ist. Dies bringt einige Vorteile gegenüber Quasipoisson mit sich, setzt jedoch meiner Meinung nach mehr (nicht testbare) Annahmen voraus. Im Gegensatz zu Quasipoisson-Modellen müssen die Daten unabhängig sein, das mittlere Modell muss korrekt sein und der Skalenparameter muss über den Bereich der angepassten Werte homoskedastisch sein, um eine korrekte Schlussfolgerung zu erhalten. Diese können jedoch durch Untersuchen der Pearson-Residuen etwas beurteilt werden, und das Modell liefert brauchbare Vorhersagen und Vorhersageintervalle und kann mit Informationskriterien verglichen werden.

Negative Binomialwahrscheinlichkeitsmodelle ergeben sich aus einer Poisson-Gamma-Mischung. Das heißt, es gibt eine unbekannte schwankende Gamma-Zufallsvariable, die in den Poisson-Ratenparameter "einspeist". Da die NB-GLM-Anpassung auf Wahrscheinlichkeit basiert, ist es in der Regel hilfreich, vorherige Annahmen über den Datengenerierungsmechanismus zu machen und diese mit den probabilistischen Gründen für das vorliegende Modell zu verknüpfen. Wenn ich zum Beispiel eine Anzahl von Rennfahrern teste, die aus dem 24-Stunden-Langstreckenrennen ausscheiden, kann ich davon ausgehen, dass die Umgebungsbedingungen alle Stressfaktoren sind, die ich nicht gemessen habe, und somit zum Risiko von DNF beitragen, wie zum Beispiel Feuchtigkeit oder Kälte, die den Reifen beeinflussen Traktion und damit die Gefahr eines Ausrutschens und Wracks.

Modelle für abhängige Daten: GLMMs vs GEE

Verallgemeinerte lineare gemischte Modelle (GLMMs) für Poisson-Daten lassen sich nicht mit den obigen Ansätzen vergleichen. GLMMs beantworten eine andere Frage und werden in verschiedenen Datenstrukturen verwendet. Hier werden Abhängigkeitsquellen zwischen Daten explizit gemessen. GLMMs verwenden zufällige Abschnitte und zufällige Steigungen, um die Heterogenität auf individueller Ebene zu berücksichtigen. Dies ändert, was wir schätzen. Die zufälligen Effekte modifizieren den Mittelwert und die Varianz , die modelliert werden, und nicht nur die Varianz, wie oben diskutiert wurde.

Es gibt zwei mögliche Assoziationsebenen, die in abhängigen Daten gemessen werden können: Bevölkerungsebene (marginale Ebene) und individuelle Ebene (bedingte Ebene). GLMMs behaupten, (bedingte) Assoziationen auf individueller Ebene zu messen: Angesichts der Vielzahl der einzelnen Beitragszahler zum Ergebnis ist dies der relative Effekt einer Kombination von Prädiktoren. Zum Beispiel können Prüfungsvorbereitungskurse für Kinder, die vorbildliche Schulen besuchen, von geringer Wirkung sein, wohingegen Kinder in der Innenstadt enorme Vorteile haben können. Der individuelle Level-Effekt ist dann unter diesen Umständen wesentlich höher, da begünstigte Kinder in Bezug auf positive Expositionen zu weit über der Kurve liegen.

Wenn wir naiv Quasipoisson- oder negative Binomialmodelle auf abhängige Daten anwenden würden, wären die NB-Modelle falsch und die Quasipoisson-Modelle ineffizient. Das GEE erweitert jedoch das Quasipoisson-Modell, um Abhängigkeitsstrukturen wie das GLMM explizit zu modellieren. Das GEE misst jedoch einen marginalen Trend (Bevölkerungsniveau) und erhält die richtigen Gewichte, Standardfehler und Inferenzen.

Beispiel für eine Datenanalyse:

Dieser Beitrag ist bereits zu lang :) Es gibt eine schöne Illustration der ersten beiden Modelle in diesem Tutorial , zusammen mit Hinweisen auf mehr Lesen, wenn Sie interessiert sind. Die fraglichen Daten beziehen sich auf die Nistgewohnheiten von Pfeilschwanzkrebsen: Frauen sitzen in Nestern und Männer (Satelliten) heften sich an sie. Die Ermittler wollten die Anzahl der an ein Weibchen gebundenen Männchen in Abhängigkeit von den Eigenschaften des Weibchens messen. Ich hoffe, ich habe unterstrichen, warum gemischte Modelle nicht vergleichbar sind: Wenn Sie abhängige Daten haben, müssen Sie das richtige Modell für die Frage verwenden, die diese abhängigen Daten zu beantworten versuchen, entweder ein GLM oder ein GEE.

Verweise:

[1] Agresti, Categorical Data Analysis 2nd Edition

[2] Diggle, Heagerty, Liang, Zeger, Analyse von Längsschnittdaten 2. Aufl.

AdamO
quelle