Warum wird beim Chi-Quadrat-Test die erwartete Anzahl als Varianz verwendet?

18

Auf welcher Grundlage wird bei χ2 Tests die Quadratwurzel der erwarteten Zählungen als Standardabweichung (dh die erwarteten Zählungen als Varianzen) für jede der Normalverteilungen verwendet? Das einzige, was ich darüber diskutieren konnte, ist http://www.physics.csbsju.edu/stats/chi-square.html , und es werden nur Poisson-Distributionen erwähnt.

Als einfaches Beispiel für meine Verwirrung, was wäre, wenn wir testen würden, ob zwei Prozesse signifikant unterschiedlich sind, einer, der 500 As und 500 Bs mit sehr geringer Varianz erzeugt, und der andere, der 550 As und 450 Bs mit sehr geringer Varianz erzeugt (selten erzeugt) 551 As und 449 Bs)? Ist die Varianz hier nicht eindeutig der erwartete Wert?

(Ich bin kein Statistiker und suche daher wirklich nach einer Antwort, die für den Laien zugänglich ist.)

Yang
quelle
Das hat wahrscheinlich etwas mit der Tatsache zu tun , dass die Varianz eines χk2 Zufallsvariable 2k und auch mit der Tatsache , dass die Statistik mit 2 multipliziert werden muss , die korrekte Verteilung zu haben (wie in dem Wahrscheinlichkeitsverhältnis - Test). Vielleicht weiß jemand mehr formal darüber.
Makro

Antworten:

16

Die allgemeine Form für viele Teststatistiken ist

observedexpectedstandarderror

Bei einer normalen Variablen basiert der Standardfehler entweder auf der bekannten Populationsvarianz (z-Statistiken) oder der Schätzung aus der Stichprobe (t-Statistiken). Beim Binomial basiert der Standardfehler auf dem Anteil (hypothetischer Anteil für Tests).

In einer Kontingenztabelle kann die Anzahl in jeder Zelle als aus einer Poisson-Verteilung stammend mit einem Mittelwert gleich dem erwarteten Wert (unter der Null) betrachtet werden. Die Varianz für die Poisson-Verteilung ist gleich dem Mittelwert, daher verwenden wir den erwarteten Wert auch für die Standardfehlerberechnung. Ich habe eine Statistik gesehen, in der stattdessen die beobachtete verwendet wird, die jedoch weniger theoretisch begründet ist und nicht so gut zur -Verteilung konvergiert .χ2

Greg Snow
quelle
1
Ich bleibe bei der Verbindung mit dem Poisson stecken und verstehe, warum jede Zelle als von einem Poisson stammend betrachtet werden kann. Ich kenne den Mittelwert / die Varianz von Poissons und ich weiß, dass sie die Anzahl von Ereignissen repräsentieren, denen eine Rate gegeben ist. Ich weiß auch, dass Chi-Quadrat-Verteilungen die Summe der Quadrate von Normalen (Varianz 1) darstellen. Ich versuche nur, die Rechtfertigung der Wiederverwendung des erwarteten Wertes als Annahme der "Ausbreitung" der einzelnen Normalen in den Kopf zu schließen. Ist das nur, um alles an die Chi-Quadrat-Verteilung anzupassen / um die Normalen zu "standardisieren"?
Yang
3
Es gibt ein paar Probleme, die Poisson-Verteilung ist häufig anzutreffen, wenn die Dinge ziemlich unabhängig sind. Anstatt sich die Tabelle als eine feste Summe vorzustellen und die Werte auf die Zellen der Tabelle zu verteilen, stellen Sie sich nur eine Zelle der Tabelle vor und warten eine bestimmte Zeit, um zu sehen, wie viele Antworten in diese Zelle fallen Dies passt zur allgemeinen Idee des Poisson. Für große Mittelwerte können Sie ein Poisson mit einer Normalverteilung approximieren. Daher ist die Teststatistik als normale Approximation für das Poisson sinnvoll und wird dann in konvertiert . χ2
Greg Snow
1
(+1) Angenommen, die Zellenzahlen waren unabhängige Poisson-Zufallsvariablen mit dem Mittelwert n π i . Dann sicherlichXi,,Xknπi in der Verteilung. Das Problem dabei ist jedoch, dassneinParameter istund nicht die tatsächlich beobachteten Zählungen. Die insgesamt beobachteten Zählungen sindN= k i = 1 XiPoi(n)ich=1k(Xich-nπich)2nπichχk2nN=ich=1kXichPÖich(n) . Obwohl ziemlicher Sicherheit von der SLLN festgelegt wird, muss noch etwas mehr Arbeit geleistet werden, um die Heuristik in etwas Umsetzbares zu verwandeln. N/n1
Kardinal
Um meine Verwirrung zu veranschaulichen, was wäre, wenn wir testen würden, ob zwei Prozesse signifikant unterschiedlich sind, einer, der 500 As und 500 Bs mit sehr geringer Varianz erzeugt, und der andere, der 550 As und 450 Bs mit sehr geringer Varianz erzeugt (selten erzeugt) 551 As und 449 Bs)? Ist die Varianz hier nicht eindeutig nicht einfach der erwartete Wert?
Yang
1
@Yang: Es hört sich so an, als ob Ihre Daten - die Sie nicht beschrieben haben - nicht mit dem Modell übereinstimmen, das der Verwendung der Chi-Quadrat-Statistik zugrunde liegt. Das Standardmodell ist eines der multinomialen Stichprobenverfahren . Streng genommen wird nicht einmal die (bedingungslose) Poisson-Probenahme abgedeckt, wie Gregs Antwort annimmt. Ich verweise (vielleicht stumpf) in meinem vorherigen Kommentar darauf.
Kardinal
17

Lassen Sie uns den einfachsten Fall behandeln, um zu versuchen, die meiste Intuition zu vermitteln. Sei eine iid-Stichprobe aus einer diskreten Verteilung mit k Ergebnissen. Sei π 1 , , π k die Wahrscheinlichkeiten für jedes einzelne Ergebnis. Wir sind in der (asymptotischen) Verteilung der Chi-Quadrat - Statistik interessiert X 2 = k ΣX1,X2,,Xnkπ1,,πk Hier n π i die erwartete Anzahl von Zählungen der ist i - ten Ergebnisses.

X2=ich=1k(Sich-nπich)2nπich.
nπichich

Eine suggestive Heuristik

Definiere , so dassX2=iU 2 i =U 2 2 mitU=(U1,,Uk).Uich=(Sich-nπich)/nπichX2=ichUich2=U22U=(U1,,Uk)

Da ist , B i n ( n ,Sich , dann durch denzentralen Grenzwertsatz, T i = U iBichn(n,πich) Somit haben wir auchdass, U i d N ( 0 , 1 - π i ) .

Tich=Uich1-πich=Sich-nπichnπich(1-πich)dN(0,1),
UichdN(0,1-πich)

Nun, wenn die waren (asymptotisch) unabhängig (was sie nicht sind), dann könnten wir argumentieren , dass Σ i T 2 i war asymptotisch χ 2 k verteilt. Beachten Sie jedoch, dass T k eine deterministische Funktion von ( T 1 , , T k - 1 ) ist und die T i -Variablen daher möglicherweise nicht unabhängig sein können.TichichTich2χk2Tk(T1,,Tk-1)Tich

Daher müssen wir die Kovarianz zwischen ihnen irgendwie berücksichtigen. Es stellt sich heraus, dass der "richtige" Weg, dies zu tun, darin besteht, stattdessen das verwenden, und die Kovarianz zwischen den Komponenten von U ändert auch die asymptotische Verteilung von dem, was wir für 2 k gehalten haben, zu dem, was tatsächlich ist. a χ 2 k - 1 .UichUχk2χk-12

Einige Details dazu folgen.

Eine strengere Behandlung

Es ist nicht schwer zu überprüfen, ob fürij.CÖv(Uich,Uj)=-πichπjichj

Die Kovarianz von ist also A = I - U wo

EIN=ich-ππT,
. Man beachtedass Asymmetrisch und idempotent, dhA=A2=AT. Wenn also insbesondereZ=(Z1,,Zk)Standardnormalkomponenten hat, dann istAZN(π=(π1,,πk)EINEIN=EIN2=EINTZ=(Z1,,Zk) . (Hinweis:Die multivariate Normalverteilung ist in diesem Fallentartet.)EINZN(0,EIN)

Nach dem multivariaten zentralen Grenzwertsatz ist der Vektor U0EIN

UEINZX2=UTUZTEINTEINZ=ZTEINZ

Aber ist symmetrisch und idempotent, so dass ( a ) es orthogonale Eigenvektoren hat, ( b ) alle seine Eigenwerte 0 oder 1 sind und ( c ) die Multiplizität des Eigenwerts von 1 r a n k ( A ) ist . Dies bedeutet , dass A kann als zerlegt wird A = Q D Q T wobei Q orthogonal und D eine Diagonalmatrix mit r a n k ( A ) , die auf den Diagonalen und die übrigen Diagonaleinträge Null sind.EINreinnk(EIN)EINEIN=Q.DQ.TQ.Dreinnk(EIN)

Somit muss χ 2 k - 1 verteilt , da A Rang hat k - 1 in unserem Fall.ZTEINZχk-12EINk-1

Andere Verbindungen

Die Chi-Quadrat-Statistik steht auch in engem Zusammenhang mit der Wahrscheinlichkeitsquotientenstatistik. In der Tat handelt es sich um eine Rao-Score-Statistik , die als Taylor-Näherung der Wahrscheinlichkeitsverhältnis-Statistik angesehen werden kann.

Verweise

Dies ist meine eigene Entwicklung, die auf Erfahrung basiert, aber offensichtlich von klassischen Texten beeinflusst wird. Gute Orte, um mehr zu lernen, sind

  1. GAF Seber und AJ Lee (2003), Linear Regression Analysis , 2. Aufl., Wiley.
  2. E. Lehmann und J. Romano (2005), Testing Statistical Hypotheses , 3. Aufl., Springer. Insbesondere Abschnitt 14.3 .
  3. DR Cox und DV Hinkley (1979), Theoretical Statistics , Chapman and Hall.
Kardinal
quelle
(+1) Ich denke, es ist schwierig, diesen Beweis in Standardtexten zur kategorialen Datenanalyse wie Agresti, A. (2002) zu finden. Kategoriale Datenanalyse. John-Wiley.
Suncoolsu
Danke für den Kommentar. Ich weiß, dass es in Agresti eine Behandlung der Chi-Quadrat-Statistik gibt, aber ich kann mich nicht erinnern, wie weit er damit gekommen ist. Er kann sich nur auf die asymptotische Äquivalenz mit der Wahrscheinlichkeitsverhältnisstatistik berufen.
Kardinal
k-1
XS