Poisson-Regressionsannahmen und wie man sie in R testet

11

Ich möchte testen, welche Regression am besten zu meinen Daten passt. Meine abhängige Variable ist eine Zählung und hat viele Nullen.

Und ich würde Hilfe brauchen, um zu bestimmen, welches Modell und welche Familie verwendet werden sollen (Poisson oder Quasipoisson oder Poisson-Regression ohne Inflation) und wie die Annahmen getestet werden sollen.

  1. Poisson-Regression: Soweit ich weiß, ist die starke Annahme, dass der abhängige variable Mittelwert = Varianz ist. Wie testest du das? Wie nah müssen sie beieinander sein? Werden hierfür bedingungslose oder bedingte Mittelwerte und Varianz verwendet? Was mache ich, wenn diese Annahme nicht zutrifft?
  2. Ich habe gelesen, dass wenn die Varianz größer als der Mittelwert ist, wir eine Überdispersion haben und ein möglicher Weg, damit umzugehen, darin besteht, unabhängigere Variablen oder family = quasipoisson einzuschließen. Hat diese Verteilung andere Anforderungen oder Annahmen? Welchen Test verwende ich, um festzustellen, ob (1) oder (2) besser passen - einfach anova(m1,m2)?
  3. Ich habe auch gelesen, dass die Negativ-Binomial-Verteilung verwendet werden kann, wenn eine Überdispersion auftritt. Wie mache ich das in R? Was ist der Unterschied zu Quasipoisson?
  4. Null-aufgeblasene Poisson-Regression: Ich habe gelesen, dass mit dem Vuong-Test überprüft wird, welche Modelle besser passen.

    > vuong (model.poisson, model.zero.poisson)

    Ist das korrekt? Welche Annahmen hat eine Regression ohne Inflation?

  5. Die Statistical Consulting Group der UCLA, Academic Technology Services, hat einen Abschnitt über Poisson-Regressionen ohne Inflation und testet das Modell ohne Inflation (a) mit dem Standard-Poisson-Modell (b):

    > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb)
    > m.b <- glm(count ~ child + camper, family = poisson, data = zinb)
    > vuong(m.a, m.b)

Ich verstehe nicht, was der | personsTeil des ersten Modells tut und warum Sie diese Modelle vergleichen können. Ich hatte erwartet, dass die Regression dieselbe sein und nur eine andere Familie verwenden würde.

Torvon
quelle

Antworten:

8

X.¯S.2F.(1,n- -1)n

Beachten Sie, dass dieser Test die Kovariaten ignoriert - daher wahrscheinlich nicht der beste Weg, um die Überdispersion in dieser Situation zu überprüfen.

Beachten Sie auch, dass dieser Test gegen die Hypothese der Null-Inflation wahrscheinlich schwach ist.

3) negatives Binom in R: Verwendung glm.nbaus dem MASSPaket oder Verwendung der zeroinflFunktion aus dem psclPaket unter Verwendung des negativen Binomial-Links.

4) Reißverschluss (Poisson ohne Inflation) ist ein Mischungsmodell. Sie haben ein binäres Ergebnis, nach dem ein Subjekt zur Gruppe A (wo eine 0 sicher ist) oder zur Gruppe B (wo die Zählungen Poisson oder neg binomial verteilt sind) gehört. Eine beobachtete 0 ist auf Probanden aus Gruppe A + Probanden aus Gruppe B zurückzuführen, die zufällig Glück hatten. Beide Aspekte des Modells können von Kovariaten abhängen: Die Gruppenmitgliedschaft wird wie eine Logistik modelliert (die Log-Quoten sind in den Kovariaten linear) und der Poisson-Teil wird auf die übliche Weise modelliert: Der Log-Mittelwert ist in den Kovariaten linear. Sie benötigen also die üblichen Annahmen für eine Logistik (für den bestimmten 0-Teil) und die üblichen Annahmen für einen Poisson. Mit anderen Worten, ein Zip-Modell heilt Ihre Überdispersionsprobleme nicht - es heilt nur eine große Anzahl von Nullen.

5) nicht sicher, was der Datensatz ist und konnte die Referenz nicht finden. zeroinfl benötigt ein Modell sowohl für den Poisson-Teil als auch für den binären Teil (bestimmte 0 oder nicht). Der bestimmte 0-Teil geht an zweiter Stelle. Also sagt ma, dass es von "Personen" abhängt, ob die Person eine bestimmte 0 ist oder nicht - und wenn das Subjekt keine bestimmte 0 ist, ist die Zählung eine Funktion von Camper und Kind. Mit anderen Worten, log (Mittelwert) ist eine lineare Funktion von Wohnmobil und Kind für diejenigen Probanden, die keine 0-Zählung benötigen.

mb ist nur ein allgemeines lineares Zählmodell in Bezug auf Wohnmobil und Kind - beide werden als feste Effekte angenommen. Die Link-Funktion ist Poisson.

Placidia
quelle
Vielen Dank! Eine kurze Frage: Gibt es eine Möglichkeit, r ^ 2 oder Pseudo-r ^ 2 wie Nagelkerke in glm mit family = poisson in R zu erzeugen? Vielen Dank!
Torvon
0
  1. Bibliothek (Pastecs)

stat.desc (dep_var) - und dann prüfen, ob der Mittelwert und die Varianz gleich sind. Von hier aus können Sie auch den Prozentsatz der Nullen in Ihrem Vektor berechnen.

Fingerman
quelle
3
Willkommen auf der Website. Dies ist eher ein Kommentar als eine Antwort. Außerdem ist es besser, die richtige Schreibweise zu verwenden und so weiter - dies ist keine SMS und viele Leute, die diese Seite lesen, haben Englisch als 2. oder 3. oder .... Sprache.
Peter Flom - Reinstate Monica
3
Bitte arbeiten Sie daran, diese schnelle Antwort zu verbessern.
Chl