Ich habe gelesen, dass der Chi-Quadrat-Test nützlich ist, um festzustellen, ob sich eine Stichprobe erheblich von einer Reihe von erwarteten Werten unterscheidet.
Hier ist zum Beispiel eine Tabelle mit Ergebnissen einer Umfrage zu den Lieblingsfarben der Menschen (n = 15 + 13 + 10 + 17 = 55 Befragte insgesamt):
red,blue,green,yellow
15,13,10,17
Ein Chi-Quadrat-Test kann mir sagen, ob sich diese Stichprobe signifikant von der Nullhypothese der gleichen Wahrscheinlichkeit unterscheidet, dass Menschen jede Farbe mögen.
Frage: Kann der Test mit den Anteilen der Befragten durchgeführt werden, die eine bestimmte Farbe mögen? Wie unten:
red,blue,green,yellow
0.273,0.236,0.182,0.309
Dabei ist natürlich 0,273 + 0,236 + 0,182 + 0,309 = 1.
Wenn der Chi-Quadrat-Test in diesem Fall nicht geeignet ist, welcher Test wäre das? Vielen Dank!
Bearbeiten: Ich habe versucht, @Roman Luštrik unten zu beantworten, und habe die folgende Ausgabe erhalten, warum erhalte ich keinen p-Wert und warum sagt R "Chi-Quadrat-Approximation kann falsch sein"?
> chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0))
Chi-squared test for given probabilities
data: c(0, 0, 0, 8, 6, 2, 0, 0)
X-squared = NaN, df = 7, p-value = NA
Warning message:
In chisq.test(c(0, 0, 0, 8, 6, 2, 0, 0), p = c(0.406197174, 0.088746395, :
Chi-squared approximation may be incorrect
Antworten:
Korrigieren Sie mich, wenn ich falsch liege, aber ich denke, dass dies mit diesem Befehl in R erledigt werden kann
Dies nimmt Proportionen von jeweils 1/4 an. Sie können die erwarteten Werte über ein Argument ändern
p
. Sie glauben beispielsweise, dass die Leute (aus welchen Gründen auch immer) eine Farbe der anderen vorziehen.quelle
Wenn Sie die zusätzlichen Informationen verwenden (da einige der Werte 0 sind), ist es ziemlich offensichtlich, warum Ihre Lösung nichts zurückgibt. Zum einen haben Sie eine Wahrscheinlichkeit von 0, also:
Das macht die Spaltungen unmöglich. Sagen wir nun, dass ist es unmöglich, dieses Ergebnis zu erzielen. Wenn ja, können Sie es auch einfach aus den Daten löschen (siehe Kommentar von @cardinal). Wenn Sie sehr unwahrscheinlich meinen, könnte eine erste "Lösung" darin bestehen, diese 0-Chance mit einer sehr kleinen Zahl zu erhöhen.p=0
Gegeben :
Du könntest es tun :
Dies ist jedoch kein korrektes Ergebnis. In diesen Grenzfällen sollte auf jeden Fall die Verwendung des Chi-Quadrat-Tests vermieden werden. Ein besserer Ansatz ist die Verwendung eines Bootstrap-Ansatzes, bei dem eine angepasste Teststatistik berechnet und die aus der Stichprobe stammende mit der vom Bootstrap erhaltenen Verteilung verglichen wird.
Im R-Code könnte dies sein (Schritt für Schritt):
Dies ergibt einen p-Wert von 0, was viel mehr dem Unterschied zwischen beobachtet und erwartet entspricht. Bei dieser Methode wird jedoch davon ausgegangen, dass Ihre Daten aus einer multinomialen Verteilung stammen. Wenn diese Annahme nicht zutrifft, gilt auch der p-Wert nicht.
quelle
Der Chi-Quadrat-Test ist gut, solange die erwarteten Zählwerte hoch sind. In der Regel ist ein Wert über 10 in Ordnung. darunter die dominiert tendenziell den Test. Eine genaue Teststatistik wird gegeben durch:1E(xi)
Wobei die beobachtete Anzahl in Kategorie i ist . i ∈ { rot, blau, grün, gelb } in deinem Beispiel. n ist Ihre Stichprobengröße, in Ihrem Beispiel gleich 55 . p i ist die Hypothese, die Sie testen möchten - am offensichtlichsten ist p i = p j (alle Wahrscheinlichkeiten sind gleich). Sie können zeigen, dass die Chi-Quadrat-Statistik:xi i i∈{red, blue, green, yellow} n 55 pi pi=pj
In Bezug auf die beobachteten Frequenzen wir bekommen:fi=xin
≤2=n≤i(fi-pi)2
( Man beachte , daß ist die effektiv die KL Divergenz zwischen der Hypothese , und die beobachteten Werten). Sie können möglicherweise intuitiv erkennen, warum ψ für kleine p i besser ist , weil es eine 1 hatψ ψ pi 1pi ψ
Now if you chooseH2 to be the "sure thing" or "perfect fit" hypothesis, then we will have ψ2=χ22=0 , and thus the chi-square and psi statistic both tell you "how far" from the perfect fit any single hypothesis is, from one which fit the observed data exactly.
Final recommendation: Useχ22 statistic when the expected counts are large, mainly because most statistical packages will easily report this value. If some expected counts are small, say about npi<10 , then use ψ , because the chi-square is a bad approximation in this case, these small cells will dominate the chi-square statistic.
quelle
Yes, you can test the null hypothesis: "H0: prop(red)=prop(blue)=prop(green)=prop(yellow)=1/4" using a chi square test that compares the proportions of the survey (0.273, ...) to the expected proportions (1/4, 1/4, 1/4, 1/4)
quelle
The test statistic for Pearson's chi-square test is
If you writeoi=Oin and ei=Ein to have proportions, where n=∑ni=1Oi is the sample size and ∑ni=1ei=1 , then the test statistic is is equal to
so a test of the significance of the observed proportions depends on the sample size, much as one would expect.
quelle