Auswählen von Alternativen zur Poisson-Regression für überdisperse Zähldaten

12

Ich analysiere derzeit Daten aus einer Reihe von Verhaltensexperimenten, die alle das folgende Maß verwenden. Die Teilnehmer dieses Experiments werden gebeten, Hinweise auszuwählen, mit deren Hilfe (fiktive) andere Personen eine Reihe von 10 Anagrammen lösen können. Die Teilnehmer werden glauben gemacht, dass diese anderen Menschen entweder Geld gewinnen oder verlieren werden, abhängig von ihrer Leistung beim Lösen der Anagramme. Die Anhaltspunkte unterscheiden sich darin, wie hilfreich sie sind. Zum Beispiel könnten für das Anagramm NUNGRIN, ein Anagramm von RUNNING, drei Hinweise sein:

  1. Schnell bewegen (nicht hilfreich)
  2. Was machst du bei einem Marathonlauf? (Hilfreich)
  3. Nicht immer ein gesundes Hobby (nicht hilfreich)

Um die Messung zu bilden, zähle ich, wie oft (von 10) ein Teilnehmer einen nicht hilfreichen Hinweis für die andere Person auswählt. In den Experimenten benutze ich verschiedene Manipulationen, um die Nützlichkeit der von den Leuten ausgewählten Hinweise zu beeinflussen.

Da die Hilfsbereitschafts- / Nicht-Hilfsbereitschaftsmessung ziemlich stark positiv verzerrt ist (ein großer Teil der Benutzer wählt immer die 10 hilfreichsten Hinweise aus) und weil die Messung eine Zählvariable ist, habe ich ein verallgemeinertes lineares Modell von Poisson verwendet, um diese Daten zu analysieren. Als ich jedoch noch etwas mehr über die Poisson-Regression las, stellte ich fest, dass die Poisson-Regression den Mittelwert und die Varianz einer Verteilung nicht unabhängig voneinander schätzt und die Varianz in einem Datensatz häufig unterschätzt. Ich begann Alternativen zur Poisson-Regression zu untersuchen, wie zum Beispiel die Quasipoisson-Regression oder die negative binomiale Regression. Allerdings gebe ich zu, dass ich mit solchen Modellen noch nicht so vertraut bin. Deshalb komme ich hierher, um Rat zu holen.

Hat jemand Empfehlungen, welches Modell für diese Art von Daten verwendet werden soll? Gibt es noch andere Überlegungen, die ich berücksichtigen sollte (ist beispielsweise ein bestimmtes Modell leistungsfähiger als ein anderes?)? Auf welche Art von Diagnose sollte ich achten, um festzustellen, ob das ausgewählte Modell meine Daten angemessen verarbeitet?

Patrick S. Forscher
quelle
Was ist mit einem robusten Varianz / Kovarianz-Schätzer, um die Annahme zu lockern, dass die Varianz gleich dem Mittelwert ist?
boscovich
2
Was ist mit Quassi-Poisson oder einem negativen binomischen Regressionsmodell, das für die Streuung verantwortlich ist, da es sich um nicht-negative Zähldaten handelt?
Arun
1
Ich habe überlegt, ein Quasi-Poisson- oder Negativ-Binomial-Modell zu verwenden, aber ich verstehe nicht, auf welche Art von Diagonistik ich achten muss, um sicherzugehen, dass ich meine Daten angemessen modelliere. Da es mehrere Alternativen gibt (Quasi-Poisson-, Negativ-Binomial- und "Zero-Augmented" -Modelle), frage ich mich auch, ob es eine gute Möglichkeit gibt, zwischen diesen Alternativen zu wählen. Ist beispielsweise eine Methode im Allgemeinen leistungsfähiger als die anderen?
Patrick S. Forscher
1
Das kommt auf die Daten an. Warum passen Sie sie nicht alle Ihren Daten an (Poisson, Negatives Binomial, Null-aufgeblasenes Poisson und Negatives Binomial, Hürdenmodelle für die fraglichen) und vergleichen Sie sie mit say, AIC oder BIC? Siehe cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf. Wählen Sie dann das für Ihre Daten am besten geeignete aus. Sie könnten auch Quasi-Likelihood-Modelle verwenden, aber das ist Geschmackssache, ich mag sie nicht so sehr.
Momo
1
Mit der Funktion vcd :: distplot können Sie überprüfen, welche Verteilung ein gutes Modell für Ihre Antwort darstellt.
Momo

Antworten:

12

Ihr Ergebnis ist die Anzahl der hilfreichen Hinweise aus 10, die eine binomische Zufallsvariable ist. Sie sollten es also mit einer Art binomischer Regression analysieren, wahrscheinlich quasi-binomisch, um eine Überdispersion zu ermöglichen. Beachten Sie, dass die Poisson- und die irreführend genannten negativen Binomialverteilungen für unbegrenzte Zähldaten geeignet sind.

Aniko
quelle
2
Ich erwähnte das negative Binom, weil es eine überdisperse Alternative zu dem Poisson ist, das der Poser ursprünglich vorgeschlagen hatte. Da jeder Befragte x / 10 Hinweise hat, könnte es sich um ein Binom handeln, aber für jeden der 10 Hinweise gibt es eine feste Wahrscheinlichkeit pi für den i-ten Befragten und die Vorkommen sind unabhängig. Das mag nicht der Fall sein.
Michael R. Chernick
2
Beta-Binomial ist eine andere Möglichkeit (Beta-Binomial ist zu Binomial wie negatives Binomial zu Poisson). betabinim aodPaket wird es tun.
Ben Bolker
5

Ich würde auch empfehlen, das negative Binomial zu betrachten, wenn die möglichen Ergebnisse wie beim Poisson unendlich wären. Vielleicht möchten Sie eines der Bücher von Joe Hilbe konsultieren. Er hat eine auf GEE und eine auf negative binomische Regression, die er mit Poisson-Regression kontrastiert. Aber wie von Aniko hervorgehoben, gibt es nur 10 Hinweise, so dass jeder Befragte nur 0, 1, 2, 3, ..., 10 haben kann und daher weder Poisson noch negative Exponentialwerte angemessen sind.

Michael R. Chernick
quelle
4

Guter Punkt von @Aniko. Eine andere Wahl ist die Beta-Regression. Es gab eine Arbeit mit dem Titel "A Better Lemon Squeezer" , die viele Informationen zu dieser Methode enthielt.

Peter Flom - Wiedereinsetzung von Monica
quelle
2
Aber Beta würde verwendet, um einen Anteil und nicht eine Zählvariable auf einer endlichen Menge von ganzen Zahlen zu modellieren.
Michael R. Chernick
Es hat weitere Verwendungsmöglichkeiten, @ MichaelChernick, siehe den Artikel, der ziemlich gut ist.
Peter Flom - Reinstate Monica
@PeterFlom Es können auch keine Daten für das Intervall [0,1], nur (0,1) verarbeitet werden.
Colin