Überdispersions- und Modellierungsalternativen in Poisson-Zufallseffektmodellen mit Offsets

12

Ich bin auf eine Reihe praktischer Fragen gestoßen, wenn ich Zähldaten aus experimenteller Forschung mithilfe eines subjektinternen Experiments modelliere. Ich beschreibe kurz das Experiment, die Daten und das, was ich bisher gemacht habe, gefolgt von meinen Fragen.

Einer Stichprobe von Befragten wurden nacheinander vier verschiedene Filme gezeigt. Nach jedem Film wurde ein Interview geführt, in dem die Anzahl der Vorkommen bestimmter Aussagen gezählt wurde, die für den RQ von Interesse waren (prognostizierte Zählvariable). Wir haben auch die maximale Anzahl möglicher Vorkommen (Codiereinheiten; Offset-Variable) aufgezeichnet. Darüber hinaus wurden mehrere Merkmale der Filme auf einer kontinuierlichen Skala gemessen, von denen wir für eines eine kausale Hypothese über die Auswirkung des Filmmerkmals auf die Anzahl der Aussagen haben, während die anderen Kontrolle (Prädiktoren) sind.

Die bisher angewandte Modellierungsstrategie lautet wie folgt:

Schätzen Sie ein Poisson-Modell mit zufälligen Effekten, bei dem die kausale Variable als Kovariate und die anderen Variablen als Kontrollkovariaten verwendet werden. Dieses Modell hat einen Versatz von 'log (units)' (Codiereinheiten). Zufällige Effekte werden fächerübergreifend aufgenommen (filmspezifische Zählungen sind in Fächer verschachtelt). Wir finden die Kausalhypothese bestätigt (Sig. Kausalkoeffizient). In R haben wir schätzungsweise das Paket lme4 verwendet, insbesondere die Funktion glmer.

Jetzt habe ich folgende Fragen. Ein häufiges Problem bei der Poisson-Regression ist die Überdispersion. Ich weiß, dass dies getestet werden kann, indem eine negative binomische Regression verwendet und bewertet wird, ob der Dispersionsparameter die Modellanpassung eines einfachen Poisson-Modells verbessert. Ich weiß jedoch nicht, wie ich das in einem zufälligen Effektkontext machen soll.

  • Wie soll ich in meiner Situation auf Überdispersion testen? Ich habe die Überdispersion in einer einfachen binomischen Poisson- / Negativ-Regression (ohne zufällige Effekte) getestet, die ich anpassen kann. Der Test deutet auf eine Überdispersion hin. Da diese Modelle das Clustering jedoch nicht berücksichtigen, gehe ich davon aus, dass dieser Test falsch ist. Ich bin mir auch nicht sicher, welche Rolle der Offset bei Überdispersionstests spielt.
  • Gibt es so etwas wie ein negatives binomiales Zufallseffekt-Regressionsmodell und wie soll ich es in R einpassen?
  • Haben Sie Vorschläge für alternative Modelle, die ich anhand der Daten ausprobieren sollte, dh unter Berücksichtigung der Struktur der wiederholten Messungen, der Zählvariablen und der Exposition (Kodiereinheiten)?
Tomka
quelle
1
Für den Anfang lesen Sie den
Ben Bolker
1
Danke, sehr hilfreich! Vielleicht möchte jemand aus diesen und anderen Informationen eine Antwort zusammenstellen.
Tomka

Antworten:

1

Es gibt eine maximal mögliche Anzahl gezählter Antworten, bezogen auf die Anzahl der gestellten Fragen. Obwohl man dies als einen Poisson-Prozess des Zähltyps modellieren kann , besteht eine andere Interpretation darin, dass ein Poisson-Prozess keine theoretische Grenze für die Anzahl der gezählten Antworten hat, dh aktiviert ist[0,). Eine andere Distribution, dh eine diskrete Distribution mit endlicher Unterstützung , z. B. das Beta-Binomial , ist möglicherweise geeigneter, da es eine veränderlichere Form hat. Dies ist jedoch nur eine Vermutung, und in der Praxis würde ich mit brachialer Gewalt nach einer Antwort auf eine allgemeinere Frage suchen ...

Anstatt auf Überdispersion zu prüfen , die keine Garantie für eine nützliche Antwort bietet, und obwohl man Dispersionsindizes untersuchen kann, um die Dispersion zu quantifizieren, würde ich sinnvollererweise die Suche nach einer besten Verteilung unter Verwendung einer diskreten Verteilungsoption einer Suche mit passender Qualität vorschlagen Programm, zB die FindDistribution- Routine von Mathematica . Diese Art der Suche führt eine ziemlich erschöpfende Arbeit aus, um zu erraten, welche bekannten Verteilungen am besten funktionieren, um nicht nur die Überdispersion zu mindern, sondern auch viele andere Datenmerkmale besser zu modellieren, z. B. die Dutzend-Passungsgüte verschiedene Wege.

Zum weiteren meinen Kandidaten Verteilungen zu untersuchen, würde ich Post - hoc untersuchen Residuen für homoscedasticity zu überprüfen und / oder Verteilungstyp, und auch prüfen , ob die Kandidatenverteilungen als entsprechend eine physikalische Erklärung der Daten in Einklang gebracht werden können. Die Gefahr dieses Verfahrens besteht darin, eine Verteilung zu identifizieren, die mit der besten Modellierung eines erweiterten Datensatzes nicht vereinbar ist. Die Gefahr, kein Post-hoc- Verfahren durchzuführen, besteht darin, von vornherein eine willkürlich gewählte Verteilung ohne ordnungsgemäße Prüfung zuzuweisen (Müll in Müll aus). Die Überlegenheit des Post-hocAnsatz ist, dass es die Anpassungsfehler begrenzt, und das ist auch seine Schwäche, dh es kann die Modellierungsfehler durch reinen Zufall unterschätzen, wenn viele Verteilungsanpassungen versucht werden. Das ist dann der Grund für die Untersuchung der Residuen und die Berücksichtigung der Körperlichkeit. Der Ansatz von oben nach unten oder von vornherein bietet keine solche Nachprüfung der Angemessenheit. Das heißt, die einzige Methode, um die Physikalität der Modellierung mit verschiedenen Verteilungen zu vergleichen , besteht darin, sie nachträglich zu vergleichen. Damit sich die Natur der physikalischen Theorie ergibt, testen wir eine hypothetische Erklärung von Daten mit vielen Experimenten, bevor wir sie als erschöpfende alternative Erklärungen akzeptieren.

Carl
quelle