Was tun, wenn die Zähldaten nicht zu einer Poisson-Verteilung passen?

7

Ich bin ein Doktorand. Ich arbeite mit einem Datensatz von Zähldaten. Es gibt eine Anzahl von Benutzern, die an einem n-way Echtzeit-Chat-Gespräch beteiligt sind. Die Anzahl der Benutzer reicht von 1 bis 6 und das Set enthält ca. 300 Daten.

Meine anfängliche Motivation war zu verstehen, ob die Daten zu einer Poisson-Verteilung passen würden. Ich dachte, wenn eine gute Übereinstimmung gefunden würde, könnte ich dieses Ergebnis für weitere Schlussfolgerungen verwenden.

Um es kurz zu machen, ich habe versucht, die Daten anzupassen, und die Anpassung schlägt bei einem Signifikanzniveau von 0,05 fehl. Somit kann ich meine Hypothese ablehnen (dass eine Poisson-Verteilung verwendet werden kann, um den Datensatz zu approximieren).

Wenn ich mir ein Dichtediagramm anschaue, glaube ich, dass der Grund, warum es eine so schlechte Anpassung gibt, darin besteht, dass "zu viele aufgezeichnete Werte für 2 Benutzer vorliegen. Eine Poisson-Verteilung würde besser mit weniger Werten in diesem Bin passen Daten selbst Ich habe keinen Grund zu der Annahme, dass es Ausreißer gibt (dh Gespräche mit 2 Benutzern, die einem höheren oder niedrigeren Bin zugeordnet würden).

users <- c(1, 2, 2, 1, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 2, 2, 1, 1, 4, 3, 3, 3, 1,
        2, 1, 1, 2, 4, 3, 2, 2, 1, 2, 3, 2, 2, 1, 1, 1, 2, 2, 1, 1, 1, 2, 2, 1, 3,
        2, 1, 2, 3, 2, 1, 2, 1, 2, 1, 1, 3, 1, 1, 1, 2, 2, 2, 3, 1, 2, 1, 2, 4, 4,
        3, 2, 2, 3, 4, 3, 3, 3, 1, 2, 4, 2, 3, 3, 2, 4, 3, 1, 2, 4, 1, 2, 2, 2, 1,
        1, 1, 2, 3, 2, 4, 5, 2, 2, 4, 2, 2, 3, 3, 3, 2, 2, 3, 1, 3, 1, 1, 1, 2, 3,
        6, 3, 3, 4, 2, 2, 2, 3, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2, 2,
        3, 3, 3, 1, 1, 2, 1, 2, 2, 2, 2, 2, 2, 4, 3, 3, 2, 1, 2, 4, 1, 2, 1, 2, 2,
        2, 3, 2, 2, 2, 2, 2, 3, 2, 2, 1, 1, 3, 1, 2, 1, 2, 3, 4, 2, 4, 3, 2, 2, 1,
        4, 2, 2, 1, 1, 2, 2, 2, 1, 1, 1, 2, 2, 3, 3, 1, 1, 2, 1, 2, 1, 3, 3, 3, 3,
        4, 6, 6, 5, 5, 2, 2, 3, 3, 3, 2, 3, 3, 4, 2, 3, 1, 3, 3, 1, 3, 2, 1, 3, 3,
        2, 1, 3, 1, 3, 2, 1, 1, 1, 1, 3, 1, 3, 4, 1, 4, 1, 3, 2, 3, 6, 2, 2, 3, 2,
        1, 2, 2, 2, 2, 2, 1, 2, 3, 2, 2, 4, 2, 2, 2, 3, 2, 2, 5, 3, 2, 2, 3, 2, 2,
        2, 5, 2, 1, 4, 1, 2, 2, 6, 1, 3, 2)


tu.fit <- goodfit(users,type="poisson", method = "MinChisq")
summary(tu.fit)
 Goodness-of-fit test for poisson distribution

             X^2 df     P(> X^2)
Pearson 69.37891  5 1.379945e-13

In der Statistik auf Undergrad-Ebene wurde mir beigebracht, dass Zähldaten durch eine Poisson-Verteilung modelliert werden können, aber sie haben nie gelernt, was zu tun ist, wenn Zähldaten nicht passen.

Ich bin nicht an die Prämisse gebunden, dass meine Zähldaten zu Poisson (oder einer anderen Distribution) passen sollten. Ich wollte jedoch die Wirksamkeit untersuchen, ob ich meinen Datensatz transformieren und an eine andere diskrete Verteilung anpassen oder stattdessen einen anderen Ansatz (KDE) ausprobieren sollte. Oder sollte ich einfach zu dem Schluss kommen, dass meine Daten nicht gut zu Poisson (oder einer anderen Distribution) passen, und es dabei belassen?

Jonathan Dunne
quelle
(1) Null als Wert erscheint a priori unmöglich, wodurch der Poisson als Modell ausgeschlossen wird. Aber warum ist ein möglicher Wert? Was bedeutet es für nur eine Person, an einem einseitigen "Gespräch" beteiligt zu sein? (2) Was hoffen Sie zu erreichen, indem Sie eine Verteilung an diesen univariaten Datensatz anpassen? Wie würde das bei "zukünftigen Schlussfolgerungen" helfen? Rückschluss auf was genau? (3) Haben Sie bemerkt, dass ist im Einklang mit einer Poisson - Verteilung? 1users-1
whuber
1
(1) Ist ein möglicher Wert in der folgenden Instanz: Ein Benutzer sendet eine einzeilige Nachricht (aus welchem ​​Grund auch immer). Niemand antwortet auf die Nachricht / führt weitere Diskussionen. In diesem Fall handelt es sich um einen Einzelbenutzer- "Gruppenchat". (2) Wenn ein Poisson passt, kann ich nach Möglichkeit Fragen stellen, wie hoch die Wahrscheinlichkeit ist, dass der nächste Chat genau 2,3,4,5 Benutzer usw. enthält. (3) ) Ich gebe zu, dass ich Benutzer-1 nicht entdeckt habe - 1 stimmte mit einer Poisson-Distribution überein. Das scheint interessant zu sein, ich muss darüber weiter nachdenken
Jonathan Dunne
Ich denke, Sie können versuchen, negative Binomialverteilung oder etwas anderes in diesem verwandten Beitrag stats.stackexchange.com/questions/67385/…
wonghang
Also habe ich mir die Dispersionsrate angesehen und mit einem Tal von 0,36 berechnet mit der Dispersionstestfunktion aus dem VRE-Paket. In einigen Kommentaren in Abschnitt 67385 wurde das Entfernen eines bestimmten Behälters mit hoher Häufigkeit aus der Perspektive eines unterverteilten Datensatzes betrachtet. Andere Kommentare deuten auf eine Form der Hürdenvermittlung hin. whubers kommentiert, dass users-1eine gute Anpassung für eine Poisson-Verteilung (die eine Form der Hürde darstellt) ist. Ich vermute, dass beim Umgang mit unterverteilten Daten ein vernünftiger Ansatz angewendet werden muss.
Jonathan Dunne
1
@whuber Ich würde mich freuen, Ihre Kommentare als Antwort auf diese Frage zu akzeptieren.
Jonathan Dunne

Antworten:

8

Betrachten wir etwas vereinfacht die Naturgeschichte eines Gesprächs:

  1. Eine Person initiiert ein Gespräch, indem sie eine Nachricht in den Äther sendet.

  2. Die Leute antworten. Jeder neue (eindeutige) Befragte erhöht die Anzahl um eins.

  3. Die Antworten auf eine Nachricht sind zufällig: Ob eine Person antwortet, hängt davon ab, ob

    • Sie sind sich der Nachricht bewusst
    • Derzeit haben Sie die Möglichkeit zu antworten
    • Sind daran interessiert zu antworten.
  4. Verglichen mit der Anzahl der Personen, die Nachrichten empfangen konnten, ist die Anzahl der initiierten Nachrichten relativ gering. Somit

    • Fast alle Personen werden jederzeit auf eine oder eine kleine überschaubare Anzahl von Nachrichten antworten.

Die Merkmale (3) und (4) legen nahe, dass eine Poisson-Verteilung ein gutes Modell für die Anzahl der Personen sein könnte , die zu einem beliebigen Zeitpunkt auf eine Nachricht antworten : dh die Anzahl minus eins. Was wir nicht wissen und möglicherweise nicht sicher sind, ist, ob alle Nachrichten ungefähr den gleichen Poisson-Parameter haben oder ob diese Parameter erheblich variieren.

Ein guter Ausgangspunkt wäre also zu testen, ob die Zählwerte minus eins zu einer Poisson-Verteilung passen. Alternativ könnten sie zu einer überdispersen Verteilung passen , die aus einer Mischung von Poissons besteht.

Die maximale Wahrscheinlichkeitsschätzung des Poisson-Parameters ist der Mittelwert der Zählungen (minus eins) gleich . (Es ist wichtig, die ML-Schätzung für diese Berechnung zu verwenden und nicht die "MinChisq" -Schätzung, die berechnet wird von : siehe https://stats.stackexchange.com/a/17148/919 .) Multiplizieren Sie die Poisson-Wahrscheinlichkeiten mit der Gesamtzahl der Benutzer gibt die erwartete Anzahl von Benutzern an. Hier werden sie mit den tatsächlichen Zählungen verglichen:λ1.20vcd::goodfit

          0   1  2  3 4 5
Expected 94 113 68 27 8 2
Actual   85 127 68 22 5 5

Die Passform sieht gut aus. Sie kann mit der Chi-Quadrat-Statistik

χ2=(8594)294+(127113)2113++(52)22=9.61.

Die sechs Terme in dieser Summe messen die einzelnen Zähldiskrepanzen. Sie sind

     0    1    2    3    4    5 
  0.88 1.79 0.00 0.93 1.18 4.82  

Werte nahe bedeuten eine gute Übereinstimmung. Nur der letzte Wert, , ist groß. Dies liegt an dem kleinen erwarteten Wert von bei einer Zählung von . In der Regel wird angenommen, dass erwartete Werte unter zu einer gewissen Unzuverlässigkeit im traditionellen Test führen: Hier sollten wir die Statistik aufgrund der geringen erwarteten Anzahl von Sechs-Wege- Werten als etwas überhöht betrachten Gespräche. 14.82255χ2χ2

Trotzdem ist diese Statistik nicht besonders hoch: Unter der hypothetischen unveränderlichen Poisson-Verteilung würde diese Statistik ungefähr einer -Verteilung folgen . Diese Verteilung sagt uns, dass ein so hoher Wert fast neun Prozent der Zeit auftritt. Wir schließen daraus, dass es kaum Hinweise auf eine Abweichung von einer konstanten Poisson-Verteilung gibt.χ2χ2(5)

Übrigens deutet eine grafische Darstellung der Daten - in der angegebenen Reihenfolge - auf eine Variation der Anzahl hin. Im Durchschnitt nehmen sie von Anfang bis Ende etwas zu, wie die Lowess-Glättung in dieser Handlung nahe legt:

Handlung

Daher sollte der Chi-Quadrat-Test der Poisson-Verteilung nicht das letzte Wort sein: Er sollte nur als Beginn einer detaillierteren Analyse betrachtet werden.


Hier ist der RCode, mit dem die Berechnungen durchgeführt und die Abbildung erstellt werden.

counts <- table(users-1)
mu <- mean(users-1)
expected <- dpois(as.numeric(names(counts)), mu) * length(users)
x <- (counts - expected)^2 / expected
print(round(x, 2)) # Terms in the chi-squared statistic
print(rbind(Expected = round(expected, 0), Actual=counts)) # Compare expected to actual

library(ggplot2)
X <- data.frame(Index=1:length(users), Count=users)
g <- ggplot(X, aes(Index, Count)) + geom_smooth(size=2) + geom_point(size=2, alpha=1/2)
print(g)
whuber
quelle
Warum hast du an den user-1"Trick" gedacht ?
Antoni Parellada
@Antoni Die Argumentation spiegelt sich in meinem ersten Kommentar zur Frage wider. Zwischen dem Schreiben der Teile (1) und (2) dieses Kommentars fiel mir ein Modell wie das in dieser Antwort beschriebene ein, sodass ich schnell den Chi-Quadrat-Test mit den Daten durchführte und Teil (3) des Kommentars einbezog.
whuber