Ich versuche für mich selbst ein Layout zu erstellen, wenn es angebracht ist, welchen Regressionstyp (geometrisch, Poisson, negatives Binomial) mit Zähldaten innerhalb des GLM-Frameworks zu verwenden (nur 3 der 8 GLM-Verteilungen werden für Zähldaten verwendet, obwohl die meisten davon verwendet werden Ich habe Zentren über die negativen Binomial- und Poisson-Verteilungen gelesen.
Wann werden Poisson-GLMs vs. geometrische GLMs vs. negative Binomial-GLMs für Zählungsdaten verwendet?
Bisher habe ich folgende Logik: Sind es Zähldaten? Wenn ja, sind Mittelwert und Varianz ungleich? Wenn ja, negative binomische Regression. Wenn nein, Poisson-Regression. Gibt es keine Inflation? Wenn ja, null aufgepumptes Poisson oder null aufgepumptes negatives Binomial.
Frage 1 Es scheint keine eindeutige Angabe zu geben, wann welche verwendet werden soll. Gibt es etwas, um diese Entscheidung zu informieren? Soweit ich weiß, wird nach dem Umstieg auf ZIP die mittlere Varianz bei gleicher Annahme gelockert, sodass sie wieder der von NB ziemlich ähnlich ist.
Frage 2 Wo passt die geometrische Familie dazu oder welche Art von Fragen muss ich an die Daten stellen, wenn ich mich für die Verwendung einer geometrischen Familie in meiner Regression entscheide?
Frage 3 Ich sehe Leute, die das negative Binom und die Poisson-Verteilungen ständig vertauschen, aber nicht geometrisch. Ich vermute, dass es etwas ganz anderes gibt, wenn man es verwendet. Wenn ja, was ist das?
PS Ich habe ein (wahrscheinlich stark vereinfachtes, aus den Kommentaren abgeleitetes) Diagramm ( bearbeitbar ) meines aktuellen Verständnisses erstellt, wenn die Leute es zur Diskussion kommentieren / optimieren wollten.
quelle
Antworten:
Natürlich gibt es auch eine Menge anderer Einzel- oder Mehrfachparameter-Zähldatenverteilungen (einschließlich der von Ihnen erwähnten Verbindung Poisson), die manchmal zu erheblich besseren Anpassungen führen können oder auch nicht.
Zu den überschüssigen Nullen: Die beiden Standardstrategien bestehen darin, entweder eine Zähldatenverteilung ohne Aufblähung oder ein Hürdenmodell zu verwenden, das aus einem Binärmodell für Null oder höher und einem Zähldatenmodell mit Aufblähung ohne Aufblähung besteht. Wie Sie bereits erwähnt haben, können überschüssige Nullen und Überdispersionen verwechselt werden. Oft bleibt jedoch eine erhebliche Überdispersion bestehen, selbst nachdem das Modell auf überschüssige Nullen eingestellt wurde. Auch hier würde ich im Zweifelsfall empfehlen, ein NB-basiertes Null-Inflations- oder Hürdenmodell mit der gleichen Logik wie oben zu verwenden.
Haftungsausschluss: Dies ist eine sehr kurze und einfache Übersicht. Bei der Anwendung der Modelle in der Praxis würde ich empfehlen, ein Lehrbuch zum Thema zu lesen. Persönlich mag ich die Zähldatenbücher von Winkelmann und die von Cameron & Trivedi. Es gibt aber auch andere gute. Für eine R-basierte Diskussion könnte Ihnen auch unser Artikel in JSS ( http://www.jstatsoft.org/v27/i08/ ) gefallen .
quelle