Wie nähert sich Pearsons Chi-Quadrat-Statistik einer Chi-Quadrat-Verteilung an?

10

Wenn also Pearsons Chi-Quadrat-Statistik für eine Tabelle angegeben wird, lautet ihre Form: $1 \times N$

\sum_{i = 1}^{n} \frac{(O_{i} - E_{i})^{2}}{E_{i}}

$\sum_{i=1}^n\frac{(O_i - E_i)^2}{E_i}$

Dann entspricht dies ungefähr , der Chi-Quadrat-Verteilung mit Freiheitsgraden, wenn die Stichprobengröße größer wird. $\chi_{n-1}^2$ $n-1$ $N$

Was ich nicht verstehe, ist, wie diese asymptotische Annäherung funktioniert. Ich denke, das in den Nennern sollte durch $E_i$ . Da dies zu für. Aber das hat natürlichFreiheitsgrade, nicht, also ist eindeutig etwas anderes los. $\frac{s_i^2}{n_i}$ $\chi_n^2 = \sum_{i=1}^nZ_i^2$ $Z_i\sim n(0,1)$ $n$ $n-1$

chi-squared asymptotics Thoth
quelle

Obwohl dies Ihre Frage nicht beantwortet , kann es etwas Licht ins Dunkel bringen.

whuber

11

Ich werde dies intuitiv motivieren und angeben, wie es für den Sonderfall zweier Gruppen zustande kommt, vorausgesetzt, Sie akzeptieren gerne die normale Annäherung an das Binomial.

Hoffentlich reicht das aus, um ein gutes Gefühl dafür zu bekommen, warum es so funktioniert, wie es funktioniert.

Sie sprechen von der Chi-Quadrat-Güte des Fit-Tests. Nehmen wir an, es gibt Gruppen (Sie haben es als , aber es gibt einen Grund, warum ich es lieber nenne ). $k$ $n$ $k$

In dem Modell, das für diese Situation angewendet wird, sind die Zählungen , sind multinomial . $O_i$ $i=1,2,...,k$

Sei . Die Zählungen sind von der Summe abhängig (außer in einigen ziemlich seltenen Situationen); und es gibt einige vorgegebene Mengen von Wahrscheinlichkeiten für jede Kategorie, , die sich zu summieren . $N=\sum_{i=1}^k O_i$ $N$ $p_i, i=1, 2, \ldots,k$ $1$

Genau wie beim Binomial gibt es eine asymptotische Normalnäherung für Multinomialwerte. Wenn Sie nur die Anzahl in einer bestimmten Zelle berücksichtigen ("in dieser Kategorie" oder nicht), ist dies ein Binomialwert. Genau wie beim Binom sind die Varianzen der Zählungen (sowie ihre Kovarianzen im Multinom) Funktionen von und den ; Sie schätzen eine Varianz nicht separat. $N$ $p$

$E_i=Np_i$ $N$ $k-1$ $k-1$ $Np_i(1-p_i)$ $-Np_ip_j$ $k-1$

$\text{Var}(O_i)=Np_i(1-p_i)$ $z_i = \frac{O_i-E_i}{\sqrt{E_i(1-p_i)}}$ $z_i$ $\chi^2_k$ $k-1$ $k$ $\chi^2_{k-1}$ $k-1$

$p_1=p$ $p_2=1-p$ $X = O_1$ $N-X=O_2$

$X$ $\text{N}(Np,Np(1-p))$ $z=\frac{X-Np}{\sqrt{Np(1-p)}}$ $z^2 = \frac{(X-Np)^2}{Np(1-p)}$ $\sim \chi^2_1$ $\sim \chi^2_1$

Beachte das

$\sum_{i=1}^2 \frac{(O_i-E_i)^2}{E_i} = \frac{[X-Np]^2}{Np}+ \frac{[(N-X)-(N-Np)]^2}{N(1-p)}= \frac{[X-Np]^2}{Np}+ \frac{[X-Np]^2}{N(1-p)}=(X-Np)^2[\frac{1}{Np}+ \frac{1}{N(1-p)}]$

Aber

$\frac{1}{Np}+ \frac{1}{N(1-p)} =\frac{Np+N(1-p)}{Np.N(1-p)} = \frac{1}{Np(1-p)}$

$\sum_{i=1}^2 \frac{(O_i-E_i)^2}{E_i} =\frac{(X-Np)^2}{Np(1-p)}$ $z^2$ $\chi^2_1$ $E_i$ $E_i(1-p_i)$

$\frac{(O_i-E_i)^2}{E_i}$ $\frac{(O_i-E_i)^2}{E_i(1-p_i)}$ $k$ $k-1$

$\chi^2_{k-1}$ $k$

Glen_b - Monica neu starten
quelle

Danke, das macht Sinn. Ist das so etwas wie ein mathematischer Zufall / Unfall, dass es so gut funktioniert, nur durch den erwarteten Wert zu dividieren? oder gibt es eine intuitive statistische Erklärung, warum dies der Fall sein sollte?

Thoth

z

$z$

E_{i}

$E_i$

E_{i}

$E_i$

k - 1

$k-1$

0

$T^2$ $k-1$ $k-1$

Dohmatob
quelle

Wie nähert sich Pearsons Chi-Quadrat-Statistik einer Chi-Quadrat-Verteilung an?

Antworten: