Was sind die Annahmen einer negativen binomischen Regression?

30

Ich arbeite mit einem großen Datensatz (vertraulich, daher kann ich nicht zu viel teilen) und bin zu dem Schluss gekommen, dass eine negative binomische Regression erforderlich wäre. Ich habe noch nie zuvor eine glm-Regression durchgeführt, und ich kann keine klaren Informationen über die Annahmen finden. Sind sie für MLR gleich?

Kann ich die Variablen auf dieselbe Weise transformieren (ich habe bereits festgestellt, dass das Transformieren der abhängigen Variablen ein schlechter Aufruf ist, da es eine natürliche Zahl sein muss)? Ich habe bereits festgestellt, dass die negative Binomialverteilung zur Überstreuung meiner Daten beiträgt (die Varianz liegt bei 2000, der Mittelwert bei 48).

Danke für die Hilfe!!

Carly
quelle

Antworten:

42

Ich arbeite mit einem großen Datensatz (vertraulich, daher kann ich nicht zu viel teilen).

Es ist möglicherweise möglich, einen kleinen Datensatz zu erstellen, der einige der allgemeinen Merkmale der realen Daten ohne die Variablennamen oder einen der tatsächlichen Werte aufweist.

und kam zu dem Schluss, dass eine negative binomische Regression notwendig wäre. Ich habe noch nie zuvor eine glm-Regression durchgeführt, und ich kann keine klaren Informationen über die Annahmen finden. Sind sie für MLR gleich?

Ganz sicher nicht! Sie wissen bereits, dass Sie davon ausgehen, dass die Antwort bedingt negativ und nicht bedingt normal ist. ( Einige Annahmen werden geteilt. Unabhängigkeit zum Beispiel.)

Lassen Sie mich zunächst allgemeiner über GLMs sprechen.

GLMs beinhalten multiple Regressionen, können jedoch auf verschiedene Arten verallgemeinert werden:

1) Die bedingte Verteilung der Antwort (abhängige Variable) stammt aus der Exponentialfamilie , zu der Poisson-, Binomial-, Gamma-, Normal- und zahlreiche andere Verteilungen gehören.

2) Die mittlere Antwort bezieht sich über eine Verbindungsfunktion auf die Prädiktoren (unabhängige Variablen) . Jeder Distributionsfamilie ist eine kanonische Verknüpfungsfunktion zugeordnet. Im Fall von Poisson ist die kanonische Verknüpfung beispielsweise das Protokoll . Die kanonischen Verknüpfungen sind fast immer die Standardverknüpfungen, aber in den meisten Programmen haben Sie im Allgemeinen mehrere Auswahlmöglichkeiten innerhalb jeder Distributionsauswahl. Für die binomische der logit die kanonische Link (der lineare Prädiktor ist modelliert , die logarithmische Wahrscheinlichkeit eines Erfolgs oder eine "1") und für das Gamma ist die kanonische Verknüpfung die Umkehrung - aber in beiden Fällen werden häufig andere Verknüpfungsfunktionen verwendet.log(p1p)

Wenn Ihre Antwort also und Ihre Prädiktoren X 1 und X 2 waren , können Sie mit einer Poisson-Regression mit dem Log-Link beschreiben, wie der Mittelwert von Y mit den X zusammenhängt:YX1X2YX

E(Yi)=μi

logμi=ηiηlogg

ηi=β0+β1x1i+β2x2i

3) Die Varianz der Antwort ist nicht konstant, sondern arbeitet über eine Varianzfunktion (eine Funktion des Mittelwerts, möglicherweise mal eines Skalierungsparameters). Zum Beispiel ist die Varianz eines Poisson gleich dem Mittelwert, während sie für ein Gamma proportional zum Quadrat des Mittelwerts ist. (Die Quasiverteilungen ermöglichen eine gewisse Entkopplung der Varianzfunktion von der angenommenen Verteilung.)

-

Welche Annahmen haben also mit dem zu tun, woran Sie sich bei MLR erinnern?

  • Die Unabhängigkeit ist immer noch da.

  • Homoskedastizität wird nicht mehr angenommen; Die Varianz ist explizit eine Funktion des Mittelwerts und variiert daher im Allgemeinen mit den Prädiktoren (während das Modell im Allgemeinen heteroskedastisch ist, nimmt die Heteroskedastizität eine spezifische Form an).

  • Xβ

  • Die Verteilung der Antwort ist wesentlich allgemeiner

t

Die Vergleiche zwischen verschachtelten Modellen (über Anova-Tabellen-ähnliche Konfigurationen) sind etwas anders, aber ähnlich (mit asymptotischen Chi-Quadrat-Tests). Wenn Sie mit AIC und BIC vertraut sind, können diese berechnet werden.

Ähnliche Arten von Diagnoseanzeigen werden im Allgemeinen verwendet, sind jedoch möglicherweise schwerer zu interpretieren.

Ein Großteil Ihrer multiplen linearen Regressionsintuition wird sich übertragen, wenn Sie die Unterschiede berücksichtigen.

Yx

E(Y)=exp(η)=exp(Xβ)=exp(β0+β1x)

Var(Y)=σ2

Das heißt, eine Anpassung der kleinsten Quadrate einer exponentiellen Beziehung zwischen Y. und x.

Kann ich die Variablen auf dieselbe Weise transformieren (ich habe bereits festgestellt, dass das Transformieren der abhängigen Variablen ein schlechter Aufruf ist, da es eine natürliche Zahl sein muss)?

Sie möchten die Antwort (DV) (normalerweise) nicht transformieren. Manchmal möchten Sie möglicherweise Prädiktoren (IVs) transformieren, um die Linearität des linearen Prädiktors zu erreichen.

Ich habe bereits festgestellt, dass die negative Binomialverteilung zur Überstreuung meiner Daten beiträgt (die Varianz liegt bei 2000, der Mittelwert bei 48).

Ja, es kann mit Überdispersion umgehen. Achten Sie jedoch darauf, die bedingte Dispersion nicht mit der bedingungslosen zu verwechseln .

Ein weiterer gängiger Ansatz - wenn auch etwas kludiger und meiner Meinung nach etwas weniger befriedigend - ist die Quasi-Poisson-Regression (überdisperse Poisson-Regression).

Mit dem negativen Binom gehört es zur Familie der Exponentialparameter, wenn Sie einen bestimmten Parameter angeben (die Art und Weise, wie es normalerweise für GLMS neu parametrisiert wird). Einige Pakete passen dazu, wenn Sie den Parameter angeben, andere wickeln die ML-Schätzung dieses Parameters (z. B. über die Profilwahrscheinlichkeit) um eine GLM-Routine und automatisieren den Prozess. Einige beschränken Sie auf eine kleinere Anzahl von Distributionen. Sie sagen nicht, welche Software Sie verwenden könnten, daher ist es schwierig, dort viel mehr zu sagen.

Ich denke, normalerweise wird der Log-Link mit negativer binomischer Regression verwendet.

Es gibt eine Reihe von Einführungsdokumenten (die über Google leicht zu finden sind), die einige grundlegende Poisson-GLM- und anschließend negative binomiale GLM-Datenanalysen enthalten. Vielleicht bevorzugen Sie es jedoch, ein Buch über GLMs zu lesen und zuerst eine kleine Poisson-Regression durchzuführen nur um sich daran zu gewöhnen.

Glen_b - Setzen Sie Monica wieder ein
quelle
1
+1 Ich bin mit COOLSerdash einverstanden. Viele gute Informationen hier! Zusätzlich zur empfohlenen Google-Suche würde ich speziell ein Lehrbuch mit dem Titel Econometrics by Example von Gujarati empfehlen. Kapitel 12 behandelt das Poisson-Regressionsmodell und das Negativ-Binomial-Regressionsmodell. Wie der Titel des Buches andeutet, gibt es Beispiele. Die im Buch verwendeten Daten sind auf der Website des Buchbegleiters verfügbar, und es folgt eine Zusammenfassung von Kapitel 12 selbst. Ich empfehle, dass das OP dies überprüft.
Graeme Walsh,
Ich komme zu spät zur Party ... aber diese Antwort hat mir geholfen, verallgemeinerte lineare Modelle besser zu verstehen als einen ganzen Stapel Bücher in der Bibliothek.
haff
0

Einige Referenzen, die ich bei der Analyse von Daten mit der negativen Binomialverteilung (einschließlich der Auflistung von Annahmen) und GLM / GLMMs im Allgemeinen als hilfreich empfunden habe, sind:

Bates, DM, B. Machler, B. Bolker und S. Walker. 2015. Anpassung linearer Mixed-Effects-Modelle mit lme4. J. Stat. Software 67: 1-48.

Bolker, BM, ME Brooks, CJ Clark, SW Geange, JR Poulsen, MHH Stevens und J. White. Verallgemeinerte lineare Mischmodelle: ein praktischer Leitfaden für Ökologie und Evolution. Trends in Ökologie und Evolution 127-135.

Zeileis A., C. Keleiber C und S. Jackman 2008. Regressionsmodelle für Zähldaten in RJ Stat. Software. 27: 1-25

Zuur AF, En Iene, N. Walker, AA Saveliev und GM Smith. 2009. Modelle mit gemischten Effekten und Erweiterungen in Ökologie bei R. Springer, NY, USA.

Todd Johnson
quelle