HINTERGRUND: Sicher überspringen - dient als Referenz und zur Rechtfertigung der Frage.
Die Eröffnung dieses Papiers lautet:
"Karl Pearsons berühmter Chi-Quadrat-Kontingenztest leitet sich aus einer anderen Statistik ab, die als z-Statistik bezeichnet wird und auf der Normalverteilung basiert. Die einfachsten Versionen von können mathematisch mit äquivalenten z-Tests identisch sein. Die Tests liefern dasselbe Ergebnis unter allen Umständen. In jeder Hinsicht könnte "Chi-Quadrat" als "Z-Quadrat" bezeichnet werden. Die kritischen Werte von für einen Freiheitsgrad sind das Quadrat der entsprechenden kritischen Werte von z. "
Dies wurde mehrfach im Lebenslauf behauptet ( hier , hier , hier und andere).
Und tatsächlich können wir beweisen, dass ist äquivalent zuX2mitX∼N(0,1):
Nehmen wir an, dass und Y = X 2 und ermitteln Sie die Dichte von Y mit der c d f -Methode:
. Das Problem ist, dass wir die Dichte der Normalverteilung nicht in enger Form integrieren können. Aber wir können es ausdrücken:
Ableitung nehmen:
Da die Werte der Normalen symmetrisch sind:
. Gleichzusetzen mit dempdf der normalen (jetzt in dem p d f wird √ an das Teil der Normalen ); und daran erinnern, in 1 enthalten am Ende:
Vergleichen Sie mit dem PDF des Chi-Quadrats:
Da , für1df haben wir genau daspdfdes Chi-Quadrats abgeleitet.
Wenn wir die Funktion prop.test()
in R aufrufen , rufen wir den gleichen -Test auf, als ob wir uns entscheiden würden .chisq.test()
DIE FRAGE:
Ich verstehe also alle diese Punkte, weiß aber aus zwei Gründen noch nicht, wie sie auf die tatsächliche Implementierung dieser beiden Tests angewendet werden:
Ein Z-Test ist nicht quadriert.
Die tatsächlichen Teststatistiken sind völlig anders:
Der Wert der Teststatistik für a ist:
wo
= Pearsons kumulative Teststatistik, die sich asymptotisch einer χ 2- Verteilungnähert. O i = Anzahl der Beobachtungen vom Typ i ; N = Gesamtzahl der Beobachtungen; E i = N p i = die erwartete (theoretische) Häufigkeit von Typ i , die durch die Nullhypothese bestätigt wird, dass der Anteil von Typ i in der Grundgesamtheit p i ist ; n = die Anzahl der Zellen in der Tabelle.
Andererseits ist die Teststatistik für einen Test :
mitp=x1 , wobeix1undx2die Anzahl der "Erfolge" sind, über die Anzahl der Probanden in jeder der Ebenen der kategorialen Variablen, dhn1undn2.
Diese Formel scheint auf der Binomialverteilung zu beruhen.
Diese beiden Teststatistiken unterscheiden sich deutlich und führen zu unterschiedlichen Ergebnissen für die eigentliche Teststatistik sowie für die p- Werte : 5.8481
für den und für den z-Test mit 2,4183 2 = 5,84817 (danke, @ mark999 ). Der p- Wert für den χ 2 -Test ist , während für den z-Test ist . Der Unterschied erklärt sich durch zweiseitiges gegenüber einseitigem : 0.01559 / 2 = 0.007795 (danke @amoeba).2.4183
0.01559
0.0077
Auf welcher Ebene sagen wir also, dass sie ein und dasselbe sind?
quelle
chisq.test()
, have you tried usingcorrect=FALSE
?Antworten:
Let us have a 2x2 frequency table where columns are two groups of respondents and rows are the two responses "Yes" and "No". And we've turned the frequencies into the proportions within group, i.e. into the vertical profiles:
The usual (not Yates corrected)χ2 of this table, after you substitute proportions instead of frequencies in its formula, looks like this:
Remember thatp=n1p1+n2p2n1+n2 , the element of the weighted average profile of the two profiles
(p1,q1)
and(p2,q2)
, and plug it in the formula, to obtainDivide both numerator and denominator by the(n21n2+n1n22) and get
the squared z-statistic of the z-test of proportions for "Yes" response.
Thus, the
2x2
homogeneity Chi-square statistic (and test) is equivalent to the z-test of two proportions. The so called expected frequencies computed in the chi-square test in a given column is the weighted (by the groupn
) average vertical profile (i.e. the profile of the "average group") multiplied by that group'sn
. Thus, it comes out that chi-square tests the deviation of each of the two groups profiles from this average group profile, - which is equivalent to testing the groups' profiles difference from each other, which is the z-test of proportions.This is one demonstration of a link between a variables association measure (chi-square) and a group difference measure (z-test statistic). Attribute associations and group differences are (often) the two facets of the same thing.
(Showing the expansion in the first line above, By @Antoni's request):
quelle