Ich sammle jeden Tag sehr große Stichproben (> 1.000.000) von kategorialen Daten und möchte, dass die Daten zwischen den Tagen "signifikant" unterschiedlich aussehen, um Fehler bei der Datenerfassung zu erkennen.
Ich dachte, ein guter Fit-Test (insbesondere ein G-Test) wäre eine gute Passform (Wortspiel beabsichtigt) dafür. Die erwartete Verteilung ergibt sich aus der Verteilung des Vortages.
Aber weil meine Stichproben so groß sind, hat der Test eine sehr hohe Leistung und gibt viele falsch positive Ergebnisse ab. Das heißt, selbst eine sehr geringe tägliche Schwankung ergibt einen p-Wert nahe Null.
Am Ende multiplizierte ich meine Teststatistik mit einer Konstanten (0,001), was die gute Interpretation der Datenabtastung mit dieser Rate bietet. Dieser Artikel scheint mit diesem Ansatz übereinzustimmen. Sie sagen, dass:
Das Chi-Quadrat ist mit Stichproben von etwa 100 bis 2500 Personen am zuverlässigsten
Ich bin auf der Suche nach weiteren maßgeblichen Kommentaren zu diesem Thema. Oder vielleicht alternative Lösungen für falsch-positive Ergebnisse, wenn Sie statistische Tests mit großen Datenmengen durchführen.
quelle
Antworten:
Der Test liefert das korrekte Ergebnis. Die Verteilungen sind nicht von Tag zu Tag gleich. Das nützt Ihnen natürlich nichts. Das Problem, mit dem Sie konfrontiert sind, ist seit langem bekannt. Siehe: Karl Pearson und RA Fisher zu statistischen Tests: Ein Austausch aus der Natur von 1935
Stattdessen können Sie auf frühere Daten zurückblicken (entweder von Ihnen oder von einem anderen Ort) und die Verteilung der täglichen Änderungen für jede Kategorie abrufen. Dann prüfen Sie, ob die aktuelle Änderung bei dieser Verteilung wahrscheinlich aufgetreten ist. Es ist schwierig, eine genauere Antwort zu geben, ohne die Daten und Arten von Fehlern zu kennen. Dieser Ansatz scheint jedoch besser für Ihr Problem geeignet zu sein.
quelle
Lassen Sie uns weitermachen und die heilige Kuh von 5% töten.
Sie haben (richtig) darauf hingewiesen, dass es um die überschwängliche Kraft des Tests geht. Möglicherweise möchten Sie es auf eine relevantere Potenz neu kalibrieren, beispielsweise einen traditionelleren Wert von 80%:
Angenommen, Sie haben 5 Kategorien mit gleichen Wahrscheinlichkeiten, , und Ihre Alternative ist p + δ / √p1=p2=p3=p4=p5=0.2 p+δ/n−−√=(0.198,0.202,0.2,0.2,0.2) n=106 δ=(−2,+2,0,0,0) k=
Beachten Sie jedoch, dass die Näherungswerte sowohl für die Null als auch für die Alternative in den Endbereichen möglicherweise schlecht funktionieren. Weitere Informationen hierzu finden Sie in dieser Diskussion .
quelle
In diesen Fällen hat mein Professor vorgeschlagen, Cramer's V zu berechnen, das ein Assoziationsmaß ist, das auf der Chi-Quadrat-Statistik basiert. Dies sollte Ihnen die Kraft geben und Ihnen bei der Entscheidung helfen, ob der Test überempfindlich ist. Ich bin mir jedoch nicht sicher, ob Sie das V mit der Art von Statistik verwenden können, die die G2-Tests zurückgeben.
Dies sollte die Formel für V sein:
quelle
Ein Ansatz wäre, die Anpassungsgütetests aussagekräftiger zu machen, indem sie an kleineren Datenblöcken durchgeführt werden.
Sie können Ihre Daten von einem bestimmten Tag in z. B. 1000 Blöcke mit jeweils 1000 Stichproben aufteilen und für jeden Block einen individuellen Anpassungstest durchführen, wobei die erwartete Verteilung durch den vollständigen Datensatz des vorherigen Tages angegeben wird. Halten Sie das Signifikanzniveau für jeden einzelnen Test auf dem von Ihnen verwendeten Niveau (z. B.α = 0,05 ). Suchen Sie dann nach signifikanten Abweichungen der Gesamtzahl der positiven Tests von der erwarteten Anzahl der falsch-positiven (unter der Nullhypothese, dass es keinen Unterschied in den Verteilungen gibt, ist die Gesamtzahl der positiven Tests mit Parameter binomial verteilt)α ).
Sie können eine gute Blockgröße finden, indem Sie Datensätze von zwei Tagen verwenden, bei denen Sie davon ausgehen können, dass die Verteilung gleich ist, und feststellen, welche Blockgröße eine Häufigkeit positiver Tests ergibt, die in etwa gleich istα (dh welche Blockgröße Ihren Test davon abhält, falsche Unterschiede zu melden).
quelle