Seltsame Methode zur Berechnung des Chi-Quadrats in Excel vs R.

9

Ich schaue auf ein Excel-Blatt, das behauptet, das zu berechnen , aber ich erkenne diese Vorgehensweise nicht und habe mich gefragt, ob mir etwas fehlt.χ2

Hier sind die Daten, die analysiert werden:

+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
|             2000 |       42 | 32.5     |
|             2000 |       42 | 32.5     |
|             2000 |       25 | 32.5     |
|             2000 |       21 | 32.5     |
+------------------+----------+----------+

Und hier sind die Summen, die es für jede Gruppe macht, um das Chi-Quadrat zu berechnen:

P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B

Für jede Gruppe lautet das also:χ2

2.822793
2.822793
1.759359
4.136448

Und das gesamte Chi-Quadrat ist : 11.54139.

Jedes Beispiel, das ich zur Berechnung von ist jedoch völlig anders. Ich würde für jede Gruppe tun:χ2

chiSq = (Observed-Expected)^2 / Expected

Und deshalb würde ich für das obige Beispiel einen Chi-Quadrat-Gesamtwert von erhalten 11.3538.

Meine Frage ist - warum berechnen sie in der Excel-Tabelle auf diese Weise? Ist das ein anerkannter Ansatz?χ2

AKTUALISIEREN

Mein Grund, dies wissen zu wollen, ist, dass ich versuche, diese Ergebnisse in der R-Sprache zu replizieren. Ich verwende die Funktion chisq.test und sie wird nicht mit derselben Nummer wie die Excel-Tabelle ausgegeben. Wenn also jemand weiß, wie man diesen Ansatz in R macht, wäre er sehr hilfreich!

UPDATE 2

Wenn jemand interessiert ist, habe ich es wie folgt in R berechnet:

res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)
user1578653
quelle
Der Ansatz in Ihrem zweiten Update sollte die richtige Statistik liefern. Wenn Ihre Erwartungen jedoch nicht auf der Summe der beobachteten Werte basieren, könnten Sie ein Problem haben, da der dortige p-Wert dies voraussetzt. Ich stelle jedoch fest, dass die erwarteten und beobachteten Werte die gleiche Summe haben (was wahrscheinlich nicht zufällig geschieht), so dass dies alles wahrscheinlich in Ordnung ist. Sie könnten es einfacher so machen:x=c(42,42,25,21);chisq.test(cbind(x,2000-x))
Glen_b - Monica
@Glen_b In der Excel-Tabelle glaube ich, dass die erwarteten Werte berechnet werden, indem die Gesamtbevölkerung * mit dem oben erarbeiteten P-Wert berechnet wird. Wird das ein Problem sein? Auch die Gesamtbevölkerung variiert - meistens ist es 2000, aber es könnte wirklich eine beliebige Zahl sein. Die Excel-Tabelle, die ich hier neu erstellen
möchte
Die Frage läuft darauf hinaus, woher die Ps kommen. Handelt es sich dabei um eine Betrachtung der insgesamt beobachteten Anzahl?
Glen_b -Reinstate Monica
Nun, für mich sieht es aus wie das Ps, und daher basiert das Erwartete sowohl auf der Gesamtzahl der beobachteten als auch auf der Gesamtbevölkerung ... In allen Beispielen, die ich in der Excel-Tabelle angegeben habe, scheint der erwartete Wert jedoch auch mit dem übereinzustimmen Gesamtzahl der beobachteten Zählungen / Anzahl der Zählungen.
user1578653
Wenn die ps auf diese Weise auf den Zählungen basieren, folgen natürlich die Erwartungen. Wenn dies der Fall ist, sieht es so aus, als ob die Freiheitsgrade usw. in Ordnung sind, wie Sie es in R getan haben - aber ein paar Worte meiner Erklärung müssen sich möglicherweise ändern.
Glen_b -Reinstate Monica

Antworten:

13

Dies stellt sich als recht einfach heraus.

Dies ist eindeutig eine binomische Abtastung. Es gibt zwei Möglichkeiten, es zu betrachten.

XiBin(Ni,pi)N(μi=Nipi,σi2=Nipi(1pi))Zi=(Xiμi)/σiZiZi2χ2

Z

(OE)2/E

+------------+------+-------+
| Population | In A | Not A |
+------------+------+-------+
|       2000 |   42 |  1958 |
|       2000 |   42 |  1958 |
|       2000 |   25 |  1975 |
|       2000 |   21 |  1979 |
+ -----------+------+-------+

ENi(1pi)

(OE)2/E

1/p+1/(1p)=1/p(1p)th

(Xiμi)2σi2=(XiNipi)2Nipi(1pi)=(XiNipi)2Nipi+(XiNipi)2Ni(1pi)=(XiNipi)2Nipi+(NiNi+NipiXi)2Ni(1pi)=(XiNipi)2Nipi+(NiXi(NiNipi))2Ni(1pi)=(XiNipi)2Nipi+((NiXi)Ni(1pi))2Ni(1pi)=(Oi(A)Ei(A))2Ei(A)+(Oi(A¯)Ei(A¯))2Ei(A¯)

Das heißt, Sie sollten bis zum Rundungsfehler die gleiche Antwort in beide Richtungen erhalten.

Mal schauen:

             Observed             Expected                 (O-E)^2/E          
  Ni        A     not A          A      not A             A           not A      
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     25         1975      32.5     1967.5       1.730769231     0.028589581     
 2000     21         1979      32.5     1967.5       4.069230769     0.067217281     

                                            Sum     11.35384615      0.187547649  

Chi-Quadrat = 11,353846 + 0,187548 = 11,54139

Welches passt zu ihrer Antwort.

Glen_b - Monica neu starten
quelle
1
Danke für Ihre Hilfe! Ich bin kein Mathematiker / Statistiker, daher hat mich das anfangs verwirrt, aber Ihre Erklärung ist sehr leicht zu verstehen.
user1578653