Ich habe das, was ich naiv für ein recht einfaches Problem hielt, das die Erkennung von Ausreißern für viele verschiedene Sätze von Zähldaten beinhaltet. Insbesondere möchte ich feststellen, ob einer oder mehrere Werte in einer Reihe von Zählungsdaten im Verhältnis zu den restlichen Zählungen in der Verteilung höher oder niedriger als erwartet sind.
Der verwirrende Faktor ist, dass ich dies für 3.500 Verteilungen tun muss, und es ist wahrscheinlich, dass einige von ihnen für ein überdisperses Poisson mit Null passen, während andere am besten für ein negatives Binom oder einen ZINB passen, während andere normal verteilt sein können. Aus diesem Grund sind einfache Z-Scores oder das Auftragen der Verteilung für einen Großteil des Datensatzes nicht geeignet. Hier ist ein Beispiel für die Zähldaten, für die ich Ausreißer erkennen möchte.
counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0
0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0
2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14
15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15
15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.
Ursprünglich dachte ich, ich müsste eine Schleife in Python oder R schreiben, die eine Reihe von Modellen auf jede Distribution anwendet und das am besten passende Modell nach AIC oder anderem auswählt (vielleicht das fitdistrplus in R?). Ich könnte dann fragen, was für Extreme für die gegebene Verteilung waren (die Zählungen, die in die Schwänze fallen, z. B. wäre eine Zählung von "4" ein Ausreißer in der obigen Verteilung von Zählungen1?). Ich bin mir jedoch nicht sicher, ob dies eine gültige Strategie ist, und es ist mir aufgefallen, dass es eine einfache Methode zur Bestimmung von Ausreißern in Zähldaten gibt, die mir nicht bekannt waren. Ich habe ausgiebig gesucht und nichts gefunden, das für mein Problem angemessen erscheint, wenn man die Anzahl der Distributionen bedenkt, die ich betrachten möchte.
Mein letztendliches Ziel ist es, mit der statistisch am besten geeigneten Methode signifikante Zu- oder Abnahmen der Anzahl für jede Zählerverteilung zu ermitteln.
quelle