Ich bin ein Doktorand. Ich arbeite mit einem Datensatz von Zähldaten. Es gibt eine Anzahl von Benutzern, die an einem n-way Echtzeit-Chat-Gespräch beteiligt sind. Die Anzahl der Benutzer reicht von 1 bis 6 und das Set enthält ca. 300 Daten.
Meine anfängliche Motivation war zu verstehen, ob die Daten zu einer Poisson-Verteilung passen würden. Ich dachte, wenn eine gute Übereinstimmung gefunden würde, könnte ich dieses Ergebnis für weitere Schlussfolgerungen verwenden.
Um es kurz zu machen, ich habe versucht, die Daten anzupassen, und die Anpassung schlägt bei einem Signifikanzniveau von 0,05 fehl. Somit kann ich meine Hypothese ablehnen (dass eine Poisson-Verteilung verwendet werden kann, um den Datensatz zu approximieren).
Wenn ich mir ein Dichtediagramm anschaue, glaube ich, dass der Grund, warum es eine so schlechte Anpassung gibt, darin besteht, dass "zu viele aufgezeichnete Werte für 2 Benutzer vorliegen. Eine Poisson-Verteilung würde besser mit weniger Werten in diesem Bin passen Daten selbst Ich habe keinen Grund zu der Annahme, dass es Ausreißer gibt (dh Gespräche mit 2 Benutzern, die einem höheren oder niedrigeren Bin zugeordnet würden).
users <- c(1, 2, 2, 1, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 2, 2, 1, 1, 4, 3, 3, 3, 1,
2, 1, 1, 2, 4, 3, 2, 2, 1, 2, 3, 2, 2, 1, 1, 1, 2, 2, 1, 1, 1, 2, 2, 1, 3,
2, 1, 2, 3, 2, 1, 2, 1, 2, 1, 1, 3, 1, 1, 1, 2, 2, 2, 3, 1, 2, 1, 2, 4, 4,
3, 2, 2, 3, 4, 3, 3, 3, 1, 2, 4, 2, 3, 3, 2, 4, 3, 1, 2, 4, 1, 2, 2, 2, 1,
1, 1, 2, 3, 2, 4, 5, 2, 2, 4, 2, 2, 3, 3, 3, 2, 2, 3, 1, 3, 1, 1, 1, 2, 3,
6, 3, 3, 4, 2, 2, 2, 3, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2, 2,
3, 3, 3, 1, 1, 2, 1, 2, 2, 2, 2, 2, 2, 4, 3, 3, 2, 1, 2, 4, 1, 2, 1, 2, 2,
2, 3, 2, 2, 2, 2, 2, 3, 2, 2, 1, 1, 3, 1, 2, 1, 2, 3, 4, 2, 4, 3, 2, 2, 1,
4, 2, 2, 1, 1, 2, 2, 2, 1, 1, 1, 2, 2, 3, 3, 1, 1, 2, 1, 2, 1, 3, 3, 3, 3,
4, 6, 6, 5, 5, 2, 2, 3, 3, 3, 2, 3, 3, 4, 2, 3, 1, 3, 3, 1, 3, 2, 1, 3, 3,
2, 1, 3, 1, 3, 2, 1, 1, 1, 1, 3, 1, 3, 4, 1, 4, 1, 3, 2, 3, 6, 2, 2, 3, 2,
1, 2, 2, 2, 2, 2, 1, 2, 3, 2, 2, 4, 2, 2, 2, 3, 2, 2, 5, 3, 2, 2, 3, 2, 2,
2, 5, 2, 1, 4, 1, 2, 2, 6, 1, 3, 2)
tu.fit <- goodfit(users,type="poisson", method = "MinChisq")
summary(tu.fit)
Goodness-of-fit test for poisson distribution
X^2 df P(> X^2)
Pearson 69.37891 5 1.379945e-13
In der Statistik auf Undergrad-Ebene wurde mir beigebracht, dass Zähldaten durch eine Poisson-Verteilung modelliert werden können, aber sie haben nie gelernt, was zu tun ist, wenn Zähldaten nicht passen.
Ich bin nicht an die Prämisse gebunden, dass meine Zähldaten zu Poisson (oder einer anderen Distribution) passen sollten. Ich wollte jedoch die Wirksamkeit untersuchen, ob ich meinen Datensatz transformieren und an eine andere diskrete Verteilung anpassen oder stattdessen einen anderen Ansatz (KDE) ausprobieren sollte. Oder sollte ich einfach zu dem Schluss kommen, dass meine Daten nicht gut zu Poisson (oder einer anderen Distribution) passen, und es dabei belassen?
quelle
users-1
users-1
eine gute Anpassung für eine Poisson-Verteilung (die eine Form der Hürde darstellt) ist. Ich vermute, dass beim Umgang mit unterverteilten Daten ein vernünftiger Ansatz angewendet werden muss.Antworten:
Betrachten wir etwas vereinfacht die Naturgeschichte eines Gesprächs:
Eine Person initiiert ein Gespräch, indem sie eine Nachricht in den Äther sendet.
Die Leute antworten. Jeder neue (eindeutige) Befragte erhöht die Anzahl um eins.
Die Antworten auf eine Nachricht sind zufällig: Ob eine Person antwortet, hängt davon ab, ob
Verglichen mit der Anzahl der Personen, die Nachrichten empfangen konnten, ist die Anzahl der initiierten Nachrichten relativ gering. Somit
Die Merkmale (3) und (4) legen nahe, dass eine Poisson-Verteilung ein gutes Modell für die Anzahl der Personen sein könnte , die zu einem beliebigen Zeitpunkt auf eine Nachricht antworten : dh die Anzahl minus eins. Was wir nicht wissen und möglicherweise nicht sicher sind, ist, ob alle Nachrichten ungefähr den gleichen Poisson-Parameter haben oder ob diese Parameter erheblich variieren.
Ein guter Ausgangspunkt wäre also zu testen, ob die Zählwerte minus eins zu einer Poisson-Verteilung passen. Alternativ könnten sie zu einer überdispersen Verteilung passen , die aus einer Mischung von Poissons besteht.
Die maximale Wahrscheinlichkeitsschätzung des Poisson-Parameters ist der Mittelwert der Zählungen (minus eins) gleich . (Es ist wichtig, die ML-Schätzung für diese Berechnung zu verwenden und nicht die "MinChisq" -Schätzung, die berechnet wird von : siehe https://stats.stackexchange.com/a/17148/919 .) Multiplizieren Sie die Poisson-Wahrscheinlichkeiten mit der Gesamtzahl der Benutzer gibt die erwartete Anzahl von Benutzern an. Hier werden sie mit den tatsächlichen Zählungen verglichen:λ 1.20
vcd::goodfit
Die Passform sieht gut aus. Sie kann mit der Chi-Quadrat-Statistik
Die sechs Terme in dieser Summe messen die einzelnen Zähldiskrepanzen. Sie sind
Werte nahe bedeuten eine gute Übereinstimmung. Nur der letzte Wert, , ist groß. Dies liegt an dem kleinen erwarteten Wert von bei einer Zählung von . In der Regel wird angenommen, dass erwartete Werte unter zu einer gewissen Unzuverlässigkeit im traditionellen Test führen: Hier sollten wir die Statistik aufgrund der geringen erwarteten Anzahl von Sechs-Wege- Werten als etwas überhöht betrachten Gespräche.1 4.82 2 5 5 χ2 χ2
Trotzdem ist diese Statistik nicht besonders hoch: Unter der hypothetischen unveränderlichen Poisson-Verteilung würde diese Statistik ungefähr einer -Verteilung folgen . Diese Verteilung sagt uns, dass ein so hoher Wert fast neun Prozent der Zeit auftritt. Wir schließen daraus, dass es kaum Hinweise auf eine Abweichung von einer konstanten Poisson-Verteilung gibt.χ2 χ2(5)
Übrigens deutet eine grafische Darstellung der Daten - in der angegebenen Reihenfolge - auf eine Variation der Anzahl hin. Im Durchschnitt nehmen sie von Anfang bis Ende etwas zu, wie die Lowess-Glättung in dieser Handlung nahe legt:
Daher sollte der Chi-Quadrat-Test der Poisson-Verteilung nicht das letzte Wort sein: Er sollte nur als Beginn einer detaillierteren Analyse betrachtet werden.
Hier ist der
R
Code, mit dem die Berechnungen durchgeführt und die Abbildung erstellt werden.quelle
user-1
"Trick" gedacht ?