Chi-Quadrat-Test mit zwei Proben

10

Diese Frage stammt aus Van der Vaarts Buch Asymptotic Statistics, pg. 253. # 3:

Angenommen, und sind unabhängige multinomiale Vektoren mit den Parametern und . Unter der Nullhypothese, dass zeigen Sie dasY n (m, a 1 ,, a k )(n, b 1 ,, b k ) a i = b iXmYn(m,a1,,ak)(n,b1,,bk)ai=bi

i=1k(Xm,imc^i)2mc^i+i=1k(Yn,inc^i)2nc^i
hat eine -Verteilung. wobei .c i = ( X m , i + Y n , i ) / ( m + n )χk12c^i=(Xm,i+Yn,i)/(m+n)

Ich brauche Hilfe beim Einstieg. Was ist die Strategie hier? Ich konnte die beiden Summanden kombinieren in:

i=1k(mYn,inXm,i)2mn(m+n)c^i

Dies funktioniert jedoch nicht mit dem CLT, da es sich um eine gewichtete Kombination von und . Ich bin mir nicht sicher, ob dies der richtige Weg ist. Irgendwelche Vorschläge?Y nXmYn

EDIT: Wenn dann ist es ziemlich einfach, weil wir bekommenm=n

mYnnXmmn(m+n)=YnXm(m+n)

Dabei kann der Zähler als Summe der Differenzen multinomialer Variablen betrachtet werden, damit wir CLT anwenden und dann mit Satz 17.2 aus demselben Kapitel abschließen können. Ich kann jedoch nicht herausfinden, wie dies in dieser Situation mit unterschiedlichen Stichprobengrößen funktioniert. Irgendeine Hilfe?(1,a1,,ak)

Ein Link zu Kapitel 17 von Google Books von van der Vaart

bdeonovic
quelle

Antworten:

6

Zuerst eine Notation. Let und die kategorische Sequenz mit zugehörigem bezeichnen und , dh . Sei . Betrachten Sie die Binärisierungen where ist Kroneckers Delta. Also haben wir{ Y t } 1 , , n X m Y nPr { X t =i } =ai,Pr { Y t =i } =biN=n+m X ich{Xt}1,,m{Yt}1,,nXmYnPr{Xt=i}=ai,Pr{Yt=i}=biN=n+m

Xi=(X1,i,,XN,i)=(δi,X1,,δi,Xn,0,,0)Yi=(Y1,i,,YN,i)=(0,,0,δi,Y1,,δi,Yn)
δi,j1i=j
Xm,i=t=1NXt,i=t=1mδi,XtYn,i=t=1NYt,i=t=1nδi,Yt

Jetzt beginnen wir mit dem Beweis. Zuerst kombinieren wir die beiden Summanden der Teststatistik. Beachten Sie, dass Wir können also die Teststatistik als schreiben

Xm,imc^i=(n+m)Xm,im(Xm,i+Yn,i)n+m=nXm,imYn,in+mYn,inc^i=(n+m)Yn,in(Xm,i+Yn,i)n+m=mYn,inXm,in+m
S=i=1k(Xm,imc^i)2mc^i+i=1k(Yn,inc^i)2nc^i=i=1k(nXm,imYn,i)2(n+m)2mc^i+i=1k(nXm,imYn,i)2(n+m)2nc^i=i=1k(nXm,imYn,i)2nm(n+m)c^i

Als nächstes beachte, dass mit dem folgende Eigenschaften

nXm,imYn,i=t=1NnXt,imYt,i=Zi
E[Zi]=nE[Xm,i]mE[Yn,i]=nmainmai=0Var[Zi]=Var[nXm,imYn,i]=n2Var[Xm,i]m2Var[Yn,i]Note Xm,i and Yn,i are independent=n2mai(1ai)+m2nai(1ai)=nm(n+m)ai(1ai)Cov[Zi,Zj]=E[ZiZj]E[Zi]E[Zj]=E[(nXm,imYn,i)(nXm,jmYn,j)]=n2(maiaj+m2aiaj)2n2m2aiaj+m2(naiaj+n2aiaj)=nm(n+m)aiaj

und so haben wir durch multivariate CLT wobei das -te Element von , . Da Von Slutsky haben wir wobei ist die Identitätsmatrix,

1nm(n+m)Z=nXmmYnnm(n+m)DN(0,Σ)
(i,j)Σσij=ai(δijaj)c^=(c^1,,c^k)p(a1,,ak)=a
nXmmYnnm(n+m)c^DN(0,Ikaa)
Ikk×ka=(a1,,ak) . Da den Eigenwert 0 der Multiplikation 1 und den Eigenwert 1 der Multiplizität nach dem kontinuierlichen Mapping-Theorem hat (oder siehe Lemma 17.1, Satz 17.2 von van der Vaart) wir habenk-1 k i=1(n x m , i -m Y n , i ) 2Ikaak1
i=1k(nXm,imYn,i)2nm(n+m)c^iDχk12
bdeonovic
quelle