Welches Regressionsmodell eignet sich am besten für Zähldaten?

10

Ich versuche ein wenig in die Statistik einzusteigen, aber ich bin mit etwas festgefahren. Meine Daten lauten wie folgt:

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

Ich möchte jetzt ein Regressionsmodell erstellen, um die Anzahl der Gene für ein bestimmtes Jahr anhand der Daten vorhersagen zu können. Ich habe es bis jetzt mit linearer Regression gemacht, aber ich habe etwas gelesen und es scheint nicht die beste Wahl für diese Art von Daten zu sein. Ich habe gelesen, dass die Poisson-Regression nützlich sein könnte, bin mir aber nicht sicher, was ich verwenden soll. Meine Frage lautet also:

Gibt es ein allgemeines Regressionsmodell für diese Art von Daten? Wenn nein, was muss ich tun, um herauszufinden, welche Methode am besten geeignet ist (in Bezug auf das, was ich über die Daten herausfinden muss)?

sequence_hard
quelle
Meine Antwort hier: stats.stackexchange.com/questions/142338/… ist sehr relevant.
kjetil b halvorsen
2
Geht es um Zeitreihendaten?
Michael M

Antworten:

22

Nein, es gibt kein allgemeines Regressionsmodell für Zähldaten.

(Ebenso wie es kein allgemeines Regressionsmodell für kontinuierliche Daten gibt. Am häufigsten wird ein lineares Modell mit normalverteiltem homoskedastischem Rauschen angenommen und unter Verwendung gewöhnlicher kleinster Quadrate angepasst. Gamma-Regression oder exponentielle Regression werden jedoch häufig verwendet, um unterschiedliche Annahmen zur Fehlerverteilung zu behandeln oder bedingte Heteroskedastizitätsmodelle wie ARCH oder GARCH in einem Zeitreihenkontext, um mit heteroskedastischem Rauschen umzugehen.)

Zu den gängigen Modellen gehören die beim Schreiben oder die negative binomiale Regression. Diese Modelle sind weit genug verbreitet, um alle Arten von Software, Tutorials oder Lehrbüchern zu finden. Ich mag besonders Hilbes negative binomiale Regression . In dieser früheren Frage wird erläutert, wie Sie zwischen verschiedenen Zähldatenmodellen wählen können.

Wenn Sie "viele" Nullen in Ihren Daten haben und insbesondere wenn Sie den Verdacht haben, dass Nullen durch einen anderen Datenerzeugungsprozess als Nicht-Nullen gesteuert werden könnten (oder dass einige Nullen von einem DGP stammen und andere Nullen und Nicht-Nullen kommen von einem anderen DGP) können nützlich sein. Die häufigste ist die Null-Inflations-Poisson-Regression (ZIP).

Sie können auch unsere vorherigen Fragen mit den Tags "Regression" und " Zähldaten" durchgehen .


EDIT: @MichaelM spricht einen guten Punkt an. Dies sieht aus wie eine Zeitreihe von Zähldaten. (Und die fehlenden Daten für 1992 und 1994 legen mir nahe, dass es in jedem dieser Jahre eine Null geben sollte. Wenn ja, geben Sie diese an. Null ist eine gültige Zahl und enthält Informationen.) Vor diesem Hintergrund habe ich Ich würde auch vorschlagen, unsere vorherigen Fragen zu lesen, die sowohl mit "Zeitreihen" als auch mit "Zähldaten" gekennzeichnet sind .

Stephan Kolassa
quelle
4
Gute, aber gewöhnliche kleinste Quadrate sind ein Schätzverfahren, kein Modell. Sie wissen das, aber es ist eine häufige Verwirrung, deshalb sollten wir nicht schreiben, wie wir es uns gönnen.
Nick Cox
@ NickCox: guter Punkt. Ich habe meinen Beitrag bearbeitet.
Stephan Kolassa
11

Die "Standard" -Verteilung, die am häufigsten verwendete und beschriebene Verteilung der Wahl für Zähldaten, ist die Poisson-Verteilung . Am häufigsten wird es am Beispiel seiner ersten praktischen Anwendung veranschaulicht:

Eine praktische Anwendung dieser Verteilung wurde 1898 von Ladislaus Bortkiewicz vorgenommen, als er die Aufgabe erhielt, die Anzahl der Soldaten in der preußischen Armee zu untersuchen, die versehentlich durch Tritte von Pferden getötet wurden. Dieses Experiment führte die Poisson-Verteilung in das Gebiet der Zuverlässigkeitstechnik ein.

λλ

E(Y|X,β)=λ=exp(β0+β1X1++βkXk)

λ

Das Problem bei der Verwendung der Poisson-Verteilung für die realen Daten besteht darin, dass davon ausgegangen wird, dass der Mittelwert der Varianz entspricht. Ein Verstoß gegen diese Annahme wird als Überdispersion bezeichnet . In solchen Fällen können Sie immer ein Quasi-Poisson- Modell, ein logarithmisches Nicht-Poisson-Modell (für große Zählungen kann Poisson durch Normalverteilung angenähert werden), eine negative binomiale Regression (eng verwandt mit Poisson; siehe Berk und MacDonald, 2008) oder verwenden andere Modelle, wie von Stephan Kolassa beschrieben .

Für eine freundliche Einführung in die Poisson-Regression können Sie auch Artikel von Lavery (2010) oder Coxe, West und Aiken (2009) lesen.


Lavery, R. (2010). Ein animierter Leitfaden: Eine Einführung in die Poisson-Regression. NESUG-Papier, sa04.

Coxe, S., West, SG & Aiken, LS (2009). Die Analyse von Zähldaten: Eine sanfte Einführung in die Poisson-Regression und ihre Alternativen. Journal of Personality Assessment, 91 (2), 121-136.

Berk, R. & MacDonald, JM (2008). Überdispersion und Poisson-Regression. Journal of Quantitative Criminology, 24 (3), 269 & ndash; 284.

Tim
quelle
2
Sie verbinden das Anpassen einer Poisson-Verteilung mit der Verwendung einer Poisson-Regression. Für die Poisson-Regression ist es nicht unbedingt erforderlich, dass die Antwort eine Poisson-Verteilung aufweist. Die Poisson-Regression eignet sich gut für eine Vielzahl positiver Reaktionen, einschließlich Messgrößen. Es ist eine gute Idee, bei Standardfehlern für Inferenz vorsichtig zu sein, aber das ist nachvollziehbar. Siehe zB blog.stata.com/2011/08/22/…
Nick Cox
@ NickCox richtig, aber die Frage bezog sich ausschließlich auf die Zähldaten, so dass es wahrscheinlich nicht notwendig ist, auf Details über andere Verwendungen der Poisson-Regression einzugehen.
Tim
3
Keine Notwendigkeit, ins Detail zu gehen, stimmte zu; aber jeder Grund, die Poisson-Regression ein wenig voranzutreiben. Sein Nutzen ist erstaunlich wenig bekannt; es verdient, zumindest in viel mehr Zwischentexten zu sein. Und was noch wichtiger ist, ich stimme überhaupt nicht zu, dass, sobald die Varianz nicht gleich ist, Sie andere Modelle verwenden sollten. Dies verwechselt zwei ganz unterschiedliche Probleme.
Nick Cox
Darüber hinaus ist die Tatsache relevant, dass die Poisson-Regression mit gemessenen Variablen verwendet werden kann, da in solchen Fällen nicht einmal aussagekräftig ist, ob Mittelwert gleich Varianz ist, da sie unterschiedliche Dimensionen haben. Solche Fälle unterstreichen somit, dass die Anforderung nicht so ist.
Nick Cox
3
exp(Xb)
0

Poisson oder negatives Binomial sind zwei weit verbreitete Modelle für Zähldaten. Ich würde mich für das negative Binomial entscheiden, da es bessere Annahmen für die Varianz hat.


quelle
3
Was meinst du mit "besser"?
Tim
2
So wie es aussieht, ist dies eher ein Kommentar als eine Antwort. Denken Sie, Sie könnten es erweitern? Sie sollten auf jeden Fall über Tims Kommentar nachdenken - das Wort "besser" ist sehr vage
Silverfish
Negative Binomialmodelle (NB) behandeln überdisperse (OD) Zähldaten, indem angenommen wird, dass sie auf Clustering zurückzuführen sind. Es verwendet dann ein zufälliges Intercept-Modell mit einem Poisson, das "innerhalb" verteilt ist, und einem Gamma, das "zwischen" Struktur verteilt ist. Was besser ist, hängt von Ihrer Annahme für OD ab. Wenn Sie davon ausgehen, dass der OD-Grad mit der Clustergröße variiert, kann NB hilfreich sein. Wenn Sie davon ausgehen, dass OD proportional zur Clustergröße ist, hat Quasi-Poisson diese Annahme. NB-Schätzungen werden verzerrt, wenn OD nur Gaußsches Rauschen ist. Poisson ist weniger voreingenommen, aber Standardfehler können bei OD zu klein sein.
Mainard