Warum verwendet der Unabhängigkeitstest die Chi-Quadrat-Verteilung?

12

Der -Anpassungstest verwendet die folgende Statistik : Im Test wird dies gewährt Wenn die Bedingungen erfüllt sind, verwendet man die - -Verteilung , um den p-Wert zu berechnen, der bei der dass wahr ist, in einer repräsentativen Stichprobe der gleichen Größe beobachtet werden würde.χ2

χ02=i=1n(OiEi)2Ei
χ2H0

Damit jedoch eine Statistik einer -Verteilung (mit Freiheitsgraden) folgt , muss zutreffen: für unabhängiges, normales ( Wikipedia ). Die Bedingungen für den Test sind wie folgt (ebenfalls aus Wikipedia ):χ02χ2n1

i=1n(OiEi)2Ei=i=1n1Zi2
Zi
  1. Stichprobe repräsentativ für die Bevölkerung
  2. Große Stichprobengröße
  3. Die erwartete Zellenzahl ist ausreichend groß
  4. Unabhängigkeit zwischen jeder Kategorie

Aus den Bedingungen (1,2) ist klar, dass wir die Bedingungen für den Rückschluss von der Stichprobe auf die Population erfüllen. (3) scheint eine erforderliche Annahme zu sein, da der diskrete Zähler , der im Nenner liegt, nicht zu einer nahezu kontinuierlichen Verteilung für jedes und wenn er nicht groß genug ist, gibt es einen Fehler, der mit Yates korrigiert werden kann 'Korrektur - Dies scheint darauf zurückzuführen zu sein, dass eine diskrete Verteilung im Grunde genommen eine "ununterbrochene" ist, so dass die Verschiebung um für jede einzelne dies korrigiert.EiZi1/2

Die Notwendigkeit von (4) scheint sich später als nützlich zu erweisen, aber ich kann nicht erkennen, wie.

Zuerst dachte ich, dass erforderlich ist, damit die Statistik mit der Verteilung übereinstimmt. Dies führte mich zu der fragwürdigen Annahme, dass , was in der Tat falsch war. Tatsächlich ergibt sich aus der Verringerung der Dimension für zwei Seiten der Gleichheit von auf dass dies nicht der Fall sein kann. Oi-EiN(0,Zi=OiEiEinn-1OiEiN(0,Ei)nn1

Dank Whubers Erklärungen hat sich gezeigt, dass nicht gleich jedem Term sein muss, weil (beachten Sie die Verringerung der Anzahl der summierten Variablen) für normale Standard-Zufallsvariablen die funktional unabhängig sind.O i - E iZi20=n-1i=1Z2iZiOiEiEiχ02=i=1n1Zi2Zi

Meine Frage ist also, wie kann der Verteilung folgen ? Welche Arten von Kombinationen von jedem der ergeben quadratische Standardnormalen ? Dies erfordert anscheinend die Verwendung des CLT (und das macht Sinn), aber wie? Mit anderen Worten , was ist jedes gleich (oder ungefähr gleich)?2 ( O i - E i ) 2χ02χ2 Z 2 i Zi(OiEi)2EiZi2Zi

VF1
quelle
1
Ich bin neugierig, wo Sie lesen, dass jemand das letzte, was Sie angegeben haben, annimmt ( ). Dies ist nicht erforderlich: Die Statistik kann eine Verteilung aufweisen (zumindest in einer äußerst guten Näherung), ohne dass diese standardisierten Residuen eine Normalverteilung aufweisen. Die Frage, die Sie sich stellen möchten, ist, wie diese Annahmen es rechtfertigen, die Statistik auf eine Verteilung zu verweisen . An sich tun sie das nicht. Eine Diskussion darüber, was schief gehen kann, finden Sie in meinem Beitrag unter stats.stackexchange.com/a/17148 . 2222OiEiN(0,Ei)χ2χ2χ2χ2
whuber
1
Aus der Gleichheit von zwei Quadratsummen kann man nicht schließen, dass die Quadratwurzeln Begriff für Begriff gleich sind! Da dies bei reinen Zahlen der Fall ist, ist dies sicherlich auch bei Zufallsvariablen der Fall.
Whuber
1
Um dies konkret zu machen, wird angenommen, sind unabhängig verteilt mit Verteilungen mit Freiheitsgraden und dem aber für alle . Dann hat, obwohl keines der normal ist, eine -Verteilung. & khgr; ν 1 , ν 2 , ... , ν n ν 1 + ν 2 + + ν n = n - 1 ν i1 i W i Σ n i = 1 W 2 i χ 2(Wi),i=1,,nχν1,ν2,,νnν1+ν2++νn=n1νi1iWii=1nWi2χ2(n1)
Whuber
1
Wenn Sie unter "Quadratische Normale" die Summe unabhängiger quadratischer Normale verstehen, dann ist dies die Frage, die Sie meiner Meinung nach am Anfang unbedingt stellen wollten :-). Und am Ende berufen sich die meisten Situationsanalysen tatsächlich auf den zentralen Grenzwertsatz, um zu beweisen, dass die standardisierten Residuen asymptotisch normal sind (aber nicht ganz unabhängig, weshalb die Freiheitsgrade und nicht ). nn1n
Whuber
1
+1 für das, was ich erwarte, wird bald eine sehr gute Frage sein. Das erste Problem ist, dass der Unabhängigkeitstest nicht die behauptete Statistik verwendet. Die am Anfang angegebene Statistik ist eindimensional (eine Summe über Kategorien), während ein Unabhängigkeitstest mehr als eine Variable erfordert. Bitte bearbeiten Sie, damit der Name des Tests und die Statistik übereinstimmen. n
Glen_b

Antworten:

6

Es geht um die Poisson-Verteilung. Wenn Poisson mit Mittelwert , dann ist die Varianz von ist auch. Dies bedeutet, dass eine ähnliche Entität ist. Durch das CLT tendiert das Poisson zur Normalität, wenn der Mittelwert groß wird, und hier kommt das Chi-Quadrat ins Spiel. Ja, es ist ein asymptotischer Test.XλXλ

(Xλ)2λ
z2

Die Freiheitsgrade ergeben sich aus dem Satz von Cochran. Grundsätzlich erklärt Cochran, wie das Chi-Quadrat bei einer linearen Transformation der Scores transformiert wird (oder unverändert bleibt) .z2

izi2=ZIZ

in Matrixnotation. Wenn stattdessen die übliche Summe der Quadrate der Berechnung Sie berechnen für einige Matrix Q, dann bekommt man noch eine Menge mit aa Chi-Quadrat - Verteilung, aber die Freiheitsgrade sind jetzt der Rang von . Es gibt mehr Bedingungen auf der Matrix Q, aber das ist der Kern davon.

ZQZ
Q

Wenn Sie mit einer Matrixnotation , können Sie als quadratische Form ausdrücken . Cochran geht von der Unabhängigkeit der ursprünglichen Normalvariablen aus, weshalb auch die Spalten Ihrer Zählungstabelle unabhängig sein müssen.

i(ziz¯)2
Placidia
quelle
Entschuldigung, aber Sie haben mich definitiv verloren bei "Wenn Sie das stattdessen tun ..."
VF1
@ VF1, ich habe eine Änderung vorgenommen, daher hoffe ich, dass es klarer wird. Der Satz von Cochrane ist die Antwort auf Ihre Frage, wann eine Summe von Quadraten mit Normalen eine Chi-Quadrat-Verteilung hat.
Placidia
1
OK, ich werde mir das mal ansehen. Ich lasse die Frage jedoch offen, falls jemand anderes etwas hinzuzufügen hat.
VF1
1
Normalerweise ist die Stichprobengröße festgelegt. Das heißt, es ist unmöglich, dass einer der Einträge einer Poisson-Verteilung folgt. Der Reiz einer Poisson-Distribution scheint daher nur eine weitere Annäherung zu sein - und scheint uns genau dort zu belassen, wo wir angefangen haben.
Whuber
1

Laut Lehrbuch "Einführende Statistik mit Randomisierung und Simulation", Abschnitt 3.3.2 (Lehrbuch bei OpenIntro frei verfügbar ), versucht die Teststatistik, die Abweichungen des Beobachteten vom Erwarteten zu akkumulieren. Und die Abweichungen werden in der Tat durch den Begriff ausgedrücktχ2

Zi=OiEiEi

was eigentlich von .

OiEi(StandardErrorOfTheObserved)

Das Lehrbuch geht weiter zu sagen , daß die wird besser geschätzt durch (StandardErrorOfTheObserved) , so wird der Term zuZi= O i - E iEi . Das Lehrbuch erklärt eigentlich nicht, warum diese Substitution akzeptabel ist, und ich würde es auch gerne herausfinden.Zi=OiEiEi

Wie auch immer, Sie können eine Teststatistik des Formulars erstellen

Z=|Z1|+|Z2|+|Z3|+...

Es ist jedoch besser, alle Terme zu quadrieren, da Sie sofort positive Werte erhalten und die höheren Werte nach dem Quadrieren stärker hervorgehoben werden. Man erhält also:

χ2=Z12+Z22+Z32+...

Aber ich weiß auch nicht, warum diese Summe der Verteilung folgen soll oder wie sie mit der Definition der χ 2- Verteilung (Summe der Quadrate der normalen unabhängigen Variablen) zusammenhängt.χ2χ2

EDIT: Ich lerne immer noch Statistik und glaube immer noch nicht, dass ich den Test richtig verstehe . Ich hoffe andere können mich auch aufklären.χ2

CamilB
quelle