Ich versuche ein wenig in die Statistik einzusteigen, aber ich bin mit etwas festgefahren. Meine Daten lauten wie folgt:
Year Number_of_genes
1990 1
1991 1
1993 3
1995 4
Ich möchte jetzt ein Regressionsmodell erstellen, um die Anzahl der Gene für ein bestimmtes Jahr anhand der Daten vorhersagen zu können. Ich habe es bis jetzt mit linearer Regression gemacht, aber ich habe etwas gelesen und es scheint nicht die beste Wahl für diese Art von Daten zu sein. Ich habe gelesen, dass die Poisson-Regression nützlich sein könnte, bin mir aber nicht sicher, was ich verwenden soll. Meine Frage lautet also:
Gibt es ein allgemeines Regressionsmodell für diese Art von Daten? Wenn nein, was muss ich tun, um herauszufinden, welche Methode am besten geeignet ist (in Bezug auf das, was ich über die Daten herausfinden muss)?
quelle
Antworten:
Nein, es gibt kein allgemeines Regressionsmodell für Zähldaten.
(Ebenso wie es kein allgemeines Regressionsmodell für kontinuierliche Daten gibt. Am häufigsten wird ein lineares Modell mit normalverteiltem homoskedastischem Rauschen angenommen und unter Verwendung gewöhnlicher kleinster Quadrate angepasst. Gamma-Regression oder exponentielle Regression werden jedoch häufig verwendet, um unterschiedliche Annahmen zur Fehlerverteilung zu behandeln oder bedingte Heteroskedastizitätsmodelle wie ARCH oder GARCH in einem Zeitreihenkontext, um mit heteroskedastischem Rauschen umzugehen.)
Zu den gängigen Modellen gehören die Poisson-Regression beim Schreiben oder die negative binomiale Regression. Diese Modelle sind weit genug verbreitet, um alle Arten von Software, Tutorials oder Lehrbüchern zu finden. Ich mag besonders Hilbes negative binomiale Regression . In dieser früheren Frage wird erläutert, wie Sie zwischen verschiedenen Zähldatenmodellen wählen können.
Wenn Sie "viele" Nullen in Ihren Daten haben und insbesondere wenn Sie den Verdacht haben, dass Nullen durch einen anderen Datenerzeugungsprozess als Nicht-Nullen gesteuert werden könnten (oder dass einige Nullen von einem DGP stammen und andere Nullen und Nicht-Nullen kommen von einem anderen DGP) können Null-Inflationsmodelle nützlich sein. Die häufigste ist die Null-Inflations-Poisson-Regression (ZIP).
Sie können auch unsere vorherigen Fragen mit den Tags "Regression" und " Zähldaten" durchgehen .
EDIT: @MichaelM spricht einen guten Punkt an. Dies sieht aus wie eine Zeitreihe von Zähldaten. (Und die fehlenden Daten für 1992 und 1994 legen mir nahe, dass es in jedem dieser Jahre eine Null geben sollte. Wenn ja, geben Sie diese an. Null ist eine gültige Zahl und enthält Informationen.) Vor diesem Hintergrund habe ich Ich würde auch vorschlagen, unsere vorherigen Fragen zu lesen, die sowohl mit "Zeitreihen" als auch mit "Zähldaten" gekennzeichnet sind .
quelle
Die "Standard" -Verteilung, die am häufigsten verwendete und beschriebene Verteilung der Wahl für Zähldaten, ist die Poisson-Verteilung . Am häufigsten wird es am Beispiel seiner ersten praktischen Anwendung veranschaulicht:
Das Problem bei der Verwendung der Poisson-Verteilung für die realen Daten besteht darin, dass davon ausgegangen wird, dass der Mittelwert der Varianz entspricht. Ein Verstoß gegen diese Annahme wird als Überdispersion bezeichnet . In solchen Fällen können Sie immer ein Quasi-Poisson- Modell, ein logarithmisches Nicht-Poisson-Modell (für große Zählungen kann Poisson durch Normalverteilung angenähert werden), eine negative binomiale Regression (eng verwandt mit Poisson; siehe Berk und MacDonald, 2008) oder verwenden andere Modelle, wie von Stephan Kolassa beschrieben .
Für eine freundliche Einführung in die Poisson-Regression können Sie auch Artikel von Lavery (2010) oder Coxe, West und Aiken (2009) lesen.
Lavery, R. (2010). Ein animierter Leitfaden: Eine Einführung in die Poisson-Regression. NESUG-Papier, sa04.
Coxe, S., West, SG & Aiken, LS (2009). Die Analyse von Zähldaten: Eine sanfte Einführung in die Poisson-Regression und ihre Alternativen. Journal of Personality Assessment, 91 (2), 121-136.
Berk, R. & MacDonald, JM (2008). Überdispersion und Poisson-Regression. Journal of Quantitative Criminology, 24 (3), 269 & ndash; 284.
quelle
Poisson oder negatives Binomial sind zwei weit verbreitete Modelle für Zähldaten. Ich würde mich für das negative Binomial entscheiden, da es bessere Annahmen für die Varianz hat.
quelle