Regeln zur Anwendung der Monte-Carlo-Simulation von p-Werten für den Chi-Quadrat-Test

9

Ich möchte die Verwendung der Monte-Carlo-Simulation in der chisq.test()Funktion in R verstehen .

Ich habe eine qualitative Variable mit 128 Stufen / Klassen. Meine Stichprobengröße beträgt 26 (ich konnte nicht mehr "Einzelpersonen" befragen). Also werde ich natürlich einige Level mit 0 "Individuen" haben. Tatsache ist jedoch, dass ich nur eine sehr kleine Anzahl von Klassen von 127 möglichen vertreten habe. Da ich gehört habe, dass wir für die Anwendung des Chi-Quadrat-Tests mindestens 5 Personen in jeder Ebene haben sollten (ich verstehe den Grund dafür nicht vollständig), dachte ich, ich müsste die simulate.p.valueOption verwenden, um die Monte-Carlo-Simulation zur Schätzung der Verteilung zu verwenden und berechne einen p-Wert. Ohne Monte-Carlo-Simulation gibt R einen p-Wert < 1e-16. Mit der Monte-Carlo-Simulation erhält ich einen p-Wert bei 4e-5.

Ich habe versucht, den p-Wert mit einem Vektor von 26 Einsen und 101 Nullen zu berechnen, und mit der Monte-Carlo-Simulation erhalte ich einen p-Wert bei 1.

Ist es in Ordnung zu behaupten, dass selbst wenn meine Stichprobengröße im Vergleich zur Anzahl möglicher Klassen klein ist, die beobachtete Verteilung so ist, dass es sehr unwahrscheinlich ist, dass alle möglichen Klassen mit der gleichen Wahrscheinlichkeit (1/127) in der realen Bevölkerung existieren ?

jtextori
quelle
3
Wenn Ihre Daten tatsächlich lauten, dass Sie 26 verschiedene Klassen aus einer Stichprobe von 26 beobachtet haben, haben Sie im Wesentlichen keine Beweise gegen die Hypothese, dass alle 127 Klassen die gleiche Wahrscheinlichkeit haben. Dies kann mit einer multinomialen Verteilungsberechnung bewertet werden.
whuber
1
" Da ich gehört habe, dass wir für die Anwendung des Chi-Quadrat-Tests mindestens 5 Personen in jedem Level haben sollten (ich verstehe den Grund dafür nicht vollständig) " - nicht ganz. Der ursprüngliche Rat war, dass die erwartete Anzahl und nicht die tatsächliche Anzahl mindestens 5 betragen sollte. Das Ziel dieser (inzwischen längst veralteten) Regel war es, sicherzustellen, dass die Chi-Quadrat-Verteilung eine vernünftige Annäherung an die diskrete Verteilung der ist Teststatistik. In den letzten vier Jahrzehnten gab es in einer Reihe von Artikeln Ratschläge: "Diese Regel ist etwas zu streng."
Glen_b -Rate State Monica

Antworten:

6

Bei der Suche scheint es der Sinn der Monte-Carlo-Simulation zu sein, eine Referenzverteilung auf der Grundlage zufällig generierter Proben zu erstellen, die dieselbe Größe wie die getestete Probe haben, um p-Werte zu berechnen, wenn die Testbedingungen nicht erfüllt sind.

Dies wird in der Serie B (1968) von Hope A. J Royal Stat Society erklärt, die auf JSTOR zu finden ist .

Hier ist ein relevantes Zitat aus dem Hope-Papier:

Monte-Carlo-Signifikanztestverfahren bestehen aus dem Vergleich der beobachteten Daten mit Zufallsstichproben, die gemäß der getesteten Hypothese erstellt wurden. ... Es ist vorzuziehen, einen bekannten Test mit guter Effizienz anstelle eines Monte-Carlo-Testverfahrens zu verwenden, vorausgesetzt, die alternative statistische Hypothese kann vollständig spezifiziert werden. Es ist jedoch nicht immer möglich, einen solchen Test zu verwenden, da die erforderlichen Bedingungen für die Anwendung des Tests möglicherweise nicht erfüllt sind oder die zugrunde liegende Verteilung unbekannt ist oder es schwierig sein kann, ein geeignetes Testkriterium zu bestimmen.

jtextori
quelle