Auf welcher Grundlage wird bei Tests die Quadratwurzel der erwarteten Zählungen als Standardabweichung (dh die erwarteten Zählungen als Varianzen) für jede der Normalverteilungen verwendet? Das einzige, was ich darüber diskutieren konnte, ist http://www.physics.csbsju.edu/stats/chi-square.html , und es werden nur Poisson-Distributionen erwähnt.
Als einfaches Beispiel für meine Verwirrung, was wäre, wenn wir testen würden, ob zwei Prozesse signifikant unterschiedlich sind, einer, der 500 As und 500 Bs mit sehr geringer Varianz erzeugt, und der andere, der 550 As und 450 Bs mit sehr geringer Varianz erzeugt (selten erzeugt) 551 As und 449 Bs)? Ist die Varianz hier nicht eindeutig der erwartete Wert?
(Ich bin kein Statistiker und suche daher wirklich nach einer Antwort, die für den Laien zugänglich ist.)
Antworten:
Die allgemeine Form für viele Teststatistiken ist
Bei einer normalen Variablen basiert der Standardfehler entweder auf der bekannten Populationsvarianz (z-Statistiken) oder der Schätzung aus der Stichprobe (t-Statistiken). Beim Binomial basiert der Standardfehler auf dem Anteil (hypothetischer Anteil für Tests).
In einer Kontingenztabelle kann die Anzahl in jeder Zelle als aus einer Poisson-Verteilung stammend mit einem Mittelwert gleich dem erwarteten Wert (unter der Null) betrachtet werden. Die Varianz für die Poisson-Verteilung ist gleich dem Mittelwert, daher verwenden wir den erwarteten Wert auch für die Standardfehlerberechnung. Ich habe eine Statistik gesehen, in der stattdessen die beobachtete verwendet wird, die jedoch weniger theoretisch begründet ist und nicht so gut zur -Verteilung konvergiert .χ2
quelle
Lassen Sie uns den einfachsten Fall behandeln, um zu versuchen, die meiste Intuition zu vermitteln. Sei eine iid-Stichprobe aus einer diskreten Verteilung mit k Ergebnissen. Sei π 1 , … , π k die Wahrscheinlichkeiten für jedes einzelne Ergebnis. Wir sind in der (asymptotischen) Verteilung der Chi-Quadrat - Statistik interessiert X 2 = k ΣX1,X2,…,Xn k π1, … , Πk
Hier n π i die erwartete Anzahl von Zählungen der ist i - ten Ergebnisses.
Eine suggestive Heuristik
Definiere , so dassX2=∑iU 2 i =‖U‖ 2 2 mitU=(U1,…,Uk).Uich= ( Sich- n πich) / n πich---√ X2=∑ichU2ich= ∥ U ∥22 U =( U1, … , Uk)
Da ist , B i n ( n ,Sich , dann durch denzentralen Grenzwertsatz,
T i = U iB i n (n, πich)
Somit haben wir auchdass, U i d → N ( 0 , 1 - π i ) .
Nun, wenn die waren (asymptotisch) unabhängig (was sie nicht sind), dann könnten wir argumentieren , dass Σ i T 2 i war asymptotisch χ 2 k verteilt. Beachten Sie jedoch, dass T k eine deterministische Funktion von ( T 1 , … , T k - 1 ) ist und die T i -Variablen daher möglicherweise nicht unabhängig sein können.Tich ∑ichT2ich χ2k Tk ( T1, … , Tk - 1) Tich
Daher müssen wir die Kovarianz zwischen ihnen irgendwie berücksichtigen. Es stellt sich heraus, dass der "richtige" Weg, dies zu tun, darin besteht, stattdessen das verwenden, und die Kovarianz zwischen den Komponenten von U ändert auch die asymptotische Verteilung von dem, was wir für ≤ 2 k gehalten haben, zu dem, was tatsächlich ist. a χ 2 k - 1 .Uich U χ2k χ2k - 1
Einige Details dazu folgen.
Eine strengere Behandlung
Es ist nicht schwer zu überprüfen, ob füri≠j.C o v ( Uich, Uj) = - πichπj----√ ich ≠ j
Die Kovarianz von ist also A = I - √U
wo √
Nach dem multivariaten zentralen Grenzwertsatz ist der VektorU 0 EIN
Aber ist symmetrisch und idempotent, so dass ( a ) es orthogonale Eigenvektoren hat, ( b ) alle seine Eigenwerte 0 oder 1 sind und ( c ) die Multiplizität des Eigenwerts von 1 r a n k ( A ) ist . Dies bedeutet , dass A kann als zerlegt wird A = Q D Q T wobei Q orthogonal und D eine Diagonalmatrix mit r a n k ( A ) , die auf den Diagonalen und die übrigen Diagonaleinträge Null sind.EIN r a n k ( A ) EIN A = Q D QT Q. D r a n k ( A )
Somit muss χ 2 k - 1 verteilt , da A Rang hat k - 1 in unserem Fall.ZTA Z χ2k - 1 EIN k - 1
Andere Verbindungen
Die Chi-Quadrat-Statistik steht auch in engem Zusammenhang mit der Wahrscheinlichkeitsquotientenstatistik. In der Tat handelt es sich um eine Rao-Score-Statistik , die als Taylor-Näherung der Wahrscheinlichkeitsverhältnis-Statistik angesehen werden kann.
Verweise
Dies ist meine eigene Entwicklung, die auf Erfahrung basiert, aber offensichtlich von klassischen Texten beeinflusst wird. Gute Orte, um mehr zu lernen, sind
quelle