Ich arbeite an der Entwicklung eines Physiklabors zum radioaktiven Zerfall. Bei der Analyse der von mir entnommenen Probendaten stieß ich auf ein Statistikproblem, das mich überraschte.
Es ist bekannt, dass die Anzahl der Zerfälle pro Zeiteinheit durch eine radioaktive Quelle Poisson-verteilt ist. Das Labor arbeitet so, dass die Schüler die Anzahl der Zerfälle pro Zeitfenster zählen und dies dann viele Male wiederholen. Dann bündeln sie ihre Daten nach der Anzahl der Zählungen und führen einen Anpassungstest mit 1 geschätzten Parameter (dem Mittelwert) durch, um zu überprüfen, ob die Nullhypothese (die Daten werden aus einer Poisson-Verteilung mit der geschätzten gezogen) oder nicht Mittelwert) gilt. Hoffentlich bekommen sie einen großen p-Wert und kommen zu dem Schluss, dass die Physik tatsächlich funktioniert (yay).
Ich bemerkte, dass die Art und Weise, wie ich meine Daten gruppierte, einen großen Einfluss auf den p-Wert hatte. Wenn ich zum Beispiel viele sehr kleine Fächer ausgewählt hätte (z. B. ein separates Fach für jede Ganzzahl: 78 Zählungen / min, 79 Zählungen / min usw.), hätte ich einen kleinen p-Wert erhalten und hätte die Nullhypothese ablehnen müssen . Wenn ich jedoch meine Daten in weniger Bins gruppierte (z. B. unter Verwendung der durch Sturges Regel angegebenen Anzahl von Bins: ), erhielt ich einen viel größeren p-Wert und lehnte die Nullhypothese NICHT ab .
Wenn ich meine Daten betrachte, sieht es extrem Poisson-verteilt aus (es stimmt fast perfekt mit meinen erwarteten Zählungen / Minuten überein). Das heißt, es gibt ein paar Zählungen in Behältern, die sehr weit vom Mittelwert entfernt sind. Das heißt, wenn ich die Statistik mit sehr kleinen Bins berechne , habe ich einige Begriffe wie: Dies führt zu einer hohen Statistik und damit zu einem niedrigen p-Wert. Wie erwartet verschwindet das Problem bei größeren Behälterbreiten, da der erwartete Wert niemals so niedrig wird.
Fragen:
Gibt es eine gute Faustregel für die Auswahl der Behältergrößen bei einem GOF-Test?
Ist diese Diskrepanz zwischen den Ergebnissen für verschiedene Behältergrößen etwas, über das ich hätte Bescheid wissen müssen *, oder weist sie auf ein größeres Problem in meiner vorgeschlagenen Datenanalyse hin?
- Vielen Dank
* (Ich habe einen Statistikkurs in Undergrad belegt, aber das ist nicht mein Fachgebiet.)
quelle
Antworten:
Das Binning des Probensatzes für radioaktiven Zerfall ist hier ein roter Hering. Das eigentliche Problem ergibt sich aus der Tatsache, dass Chi-Quadrat (neben anderen Hypothesentest-Frameworks) sehr empfindlich auf die Stichprobengröße reagiert. Im Fall von Chi-Quadrat werden absolute Unterschiede mit zunehmender Stichprobengröße zu einem immer kleineren Teil des erwarteten Wertes. Wenn die Stichprobengröße sehr groß ist, können wir daher kleine p-Werte und statistische Signifikanz finden, wenn die Ergebnisse klein und uninteressant sind. Umgekehrt kann eine einigermaßen starke Assoziation bei geringer Stichprobengröße nicht so signifikant sein.
Die Antwort scheint, dass man nicht darauf abzielen sollte, das richtige N zu finden (ich bin nicht sicher, ob es machbar ist, aber es wäre großartig, wenn jemand anderes eingreift, um zu widersprechen), sondern nur dann über p-Werte hinausschauen sollte, wenn N hoch ist. Dies scheint ein gutes Papier zu diesem Thema zu sein: Too Big to Fail: Große Stichproben und das p-Wert-Problem
PS Es gibt Alternativen zum χ2-Test wie Cramers V- und G-Test ; Sie werden jedoch immer noch die gleichen Probleme mit großem N -> kleinem p-Wert haben.
quelle