Ich habe einen Datensatz, der die Anzahl der Aktionen enthält, die von Einzelpersonen innerhalb von 7 Tagen ausgeführt wurden. Die spezifische Aktion sollte für diese Frage nicht relevant sein. Hier einige beschreibende Statistiken für den Datensatz:
Hier ist ein Histogramm der Daten:
Nach der Datenquelle zu urteilen, dachte ich, dass es zu einer Poisson-Verteilung passen würde. Die mittlere ≠ Varianz und das Histogramm sind jedoch stark nach links gewichtet. Zusätzlich habe ich den goodfit
Test in R durchgeführt und Folgendes erhalten:
> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2 df P(> X^2) <br>
Pearson 2.937599e+248 771 0
Die Maximum-Likelihood-Methode ergab auch einen p-Wert = 0. Unter der Annahme, dass die Nullhypothese lautet: Die Daten stimmen mit einer Poisson-Verteilung überein (die Dokumentation gibt dies nicht an), goodfit
sagt der Test, dass wir die Nullhypothese ablehnen sollten, daher tun die Daten dies nicht eine Poisson-Verteilung abgleichen.
Ist diese Analyse korrekt? Wenn ja, welche Verteilung passt Ihrer Meinung nach zu diesen Daten?
Antworten:
Wenn die Varianz größer als der Mittelwert ist, spricht man von Überdispersion. Ein natürliches Modell hierfür ist die negative Binomialverteilung. Dies kann auch als Poisson-Verteilung angesehen werden, bei der der Parameter Lambda einer Gamma-Verteilung folgt. Ein erster und einfacher Schritt könnte darin bestehen, eine negative Binomialverteilung anzupassen.
quelle
Wenn Ihre Rohdaten nicht wie eine Poisson-Verteilung aussehen, fehlt Ihnen etwas. Vielleicht hängt die Anzahl der Aktionen von der Temperatur ab, sodass die Leute an heißen Tagen weniger tun. Dann würde eine Temperaturschwankung während Ihres Untersuchungszeitraums die Verteilung beeinflussen und sie nicht Poisson machen.
Die Anzahl der Aktionen pro Tag könnte jedoch immer noch Poisson sein, wobei der Mittelwert von der Temperatur abhängt. Wenn Sie die Temperatur jeden Tag haben, können Sie eine GLM durchführen, bei der die Anzahl der Aktionen abhängig von der Temperatur als Poisson-Variable zurückgeführt wird. Wenn das gut passt, ist die Arbeit erledigt.
Wenn Sie keine möglichen erklärenden Variablen haben, können Sie nur sagen, dass "etwas anderes vor sich geht - die Anzahl der Aktionen stammt nicht aus unabhängigen Poisson-Stichproben" - dh Ihre Nullhypothese ablehnen.
Es gibt verteilungsfreie Tests, mit denen gepaarte Beobachtungen mithilfe von Rankings usw. verglichen werden können. Normalerweise führen sie eine große Anzahl von Permutationen durch und berechnen eine Teststatistik ...
quelle
Noch etwas: Sie sollten Ausreißer auch in Zähldaten untersuchen. Sie haben eine Zählung bei 400 und dann nichts bis 800. Das passt wahrscheinlich nicht zu den gängigen Modellen.
quelle
Sie scheinen die Anzahl der Nullereignisse zu zählen. Wenn ja, können Sie ein ZIP-Modell (oder eine Hürde) in Betracht ziehen. Eine Übersicht finden Sie unter Regressionsmodelle für Zähldaten in R von Zeileis et al.
Zusammenfassend lässt sich sagen, dass diese Methoden die Nullzählungen getrennt von den übrigen Zählungen modellieren, was in Ihrem Fall nützlich sein könnte.
Beziehen Sie sich auf das
pscl
Paket und diezeroinfl()
undhurdle()
Funktionen.quelle
Ich vermute, dass Ihr Histogramm irreführend ist. Wenn Sie etwas mehr als 300 Beobachtungen haben, die gleichmäßig über den Bereich von 0 bis 50, etwa 320 gleichmäßig über den Bereich von 50 bis 100 und 50 oder mehr über 100 verteilt sind, sollte Ihr Mittelwert wesentlich größer als 18,2 sein.
Wenn die Daten im Bereich von 0 bis 50 nicht gleichmäßig verteilt sind, sondern nahe Null konzentriert sind, ist es überraschend, mehr im Bereich von 50 bis 100 als im Bereich von 0 bis 50 zu sehen.
Vielleicht haben Sie eine Mischung aus Verteilungen. Ich bezweifle, dass irgendjemand viel damit anfangen kann, ohne die tatsächlichen 696 Beobachtungen und insbesondere ohne mehr über den Kontext zu wissen. Ist jede der 696 Beobachtungen ein Individuum und ist die Antwort die Anzahl der Maßnahmen, die jedes Individuum ergriffen hat? Wenn ja, gibt es verschiedene Arten von Personen in den Daten?
quelle