Ich möchte testen, welche Regression am besten zu meinen Daten passt. Meine abhängige Variable ist eine Zählung und hat viele Nullen.
Und ich würde Hilfe brauchen, um zu bestimmen, welches Modell und welche Familie verwendet werden sollen (Poisson oder Quasipoisson oder Poisson-Regression ohne Inflation) und wie die Annahmen getestet werden sollen.
- Poisson-Regression: Soweit ich weiß, ist die starke Annahme, dass der abhängige variable Mittelwert = Varianz ist. Wie testest du das? Wie nah müssen sie beieinander sein? Werden hierfür bedingungslose oder bedingte Mittelwerte und Varianz verwendet? Was mache ich, wenn diese Annahme nicht zutrifft?
- Ich habe gelesen, dass wenn die Varianz größer als der Mittelwert ist, wir eine Überdispersion haben und ein möglicher Weg, damit umzugehen, darin besteht, unabhängigere Variablen oder family = quasipoisson einzuschließen. Hat diese Verteilung andere Anforderungen oder Annahmen? Welchen Test verwende ich, um festzustellen, ob (1) oder (2) besser passen - einfach
anova(m1,m2)
? - Ich habe auch gelesen, dass die Negativ-Binomial-Verteilung verwendet werden kann, wenn eine Überdispersion auftritt. Wie mache ich das in R? Was ist der Unterschied zu Quasipoisson?
Null-aufgeblasene Poisson-Regression: Ich habe gelesen, dass mit dem Vuong-Test überprüft wird, welche Modelle besser passen.
> vuong (model.poisson, model.zero.poisson)
Ist das korrekt? Welche Annahmen hat eine Regression ohne Inflation?
Die Statistical Consulting Group der UCLA, Academic Technology Services, hat einen Abschnitt über Poisson-Regressionen ohne Inflation und testet das Modell ohne Inflation (a) mit dem Standard-Poisson-Modell (b):
> m.a <- zeroinfl(count ~ child + camper | persons, data = zinb)
> m.b <- glm(count ~ child + camper, family = poisson, data = zinb)
> vuong(m.a, m.b)
Ich verstehe nicht, was der | persons
Teil des ersten Modells tut und warum Sie diese Modelle vergleichen können. Ich hatte erwartet, dass die Regression dieselbe sein und nur eine andere Familie verwenden würde.
stat.desc (dep_var) - und dann prüfen, ob der Mittelwert und die Varianz gleich sind. Von hier aus können Sie auch den Prozentsatz der Nullen in Ihrem Vektor berechnen.
quelle