Der -Anpassungstest verwendet die folgende Statistik : Im Test wird dies gewährt Wenn die Bedingungen erfüllt sind, verwendet man die - -Verteilung , um den p-Wert zu berechnen, der bei der dass wahr ist, in einer repräsentativen Stichprobe der gleichen Größe beobachtet werden würde.
Damit jedoch eine Statistik einer -Verteilung (mit Freiheitsgraden) folgt , muss zutreffen: für unabhängiges, normales ( Wikipedia ). Die Bedingungen für den Test sind wie folgt (ebenfalls aus Wikipedia ):
- Stichprobe repräsentativ für die Bevölkerung
- Große Stichprobengröße
- Die erwartete Zellenzahl ist ausreichend groß
- Unabhängigkeit zwischen jeder Kategorie
Aus den Bedingungen (1,2) ist klar, dass wir die Bedingungen für den Rückschluss von der Stichprobe auf die Population erfüllen. (3) scheint eine erforderliche Annahme zu sein, da der diskrete Zähler , der im Nenner liegt, nicht zu einer nahezu kontinuierlichen Verteilung für jedes und wenn er nicht groß genug ist, gibt es einen Fehler, der mit Yates korrigiert werden kann 'Korrektur - Dies scheint darauf zurückzuführen zu sein, dass eine diskrete Verteilung im Grunde genommen eine "ununterbrochene" ist, so dass die Verschiebung um für jede einzelne dies korrigiert.
Die Notwendigkeit von (4) scheint sich später als nützlich zu erweisen, aber ich kann nicht erkennen, wie.
Zuerst dachte ich, dass erforderlich ist, damit die Statistik mit der Verteilung übereinstimmt. Dies führte mich zu der fragwürdigen Annahme, dass , was in der Tat falsch war. Tatsächlich ergibt sich aus der Verringerung der Dimension für zwei Seiten der Gleichheit von auf dass dies nicht der Fall sein kann. Oi-Ei∼N(0,√nn-1
Dank Whubers Erklärungen hat sich gezeigt, dass nicht gleich jedem Term sein muss, weil (beachten Sie die Verringerung der Anzahl der summierten Variablen) für normale Standard-Zufallsvariablen die funktional unabhängig sind.O i - E i ≤20=≤n-1i=1Z2iZi
Meine Frage ist also, wie kann der Verteilung folgen ? Welche Arten von Kombinationen von jedem der ergeben quadratische Standardnormalen ? Dies erfordert anscheinend die Verwendung des CLT (und das macht Sinn), aber wie? Mit anderen Worten , was ist jedes gleich (oder ungefähr gleich)? ≤ 2 ( O i - E i ) 2 Z 2 i Zi
Antworten:
Es geht um die Poisson-Verteilung. Wenn Poisson mit Mittelwert , dann ist die Varianz von ist auch. Dies bedeutet, dass eine ähnliche Entität ist. Durch das CLT tendiert das Poisson zur Normalität, wenn der Mittelwert groß wird, und hier kommt das Chi-Quadrat ins Spiel. Ja, es ist ein asymptotischer Test.X λ X λ
Die Freiheitsgrade ergeben sich aus dem Satz von Cochran. Grundsätzlich erklärt Cochran, wie das Chi-Quadrat bei einer linearen Transformation der Scores transformiert wird (oder unverändert bleibt) .z2
in Matrixnotation. Wenn stattdessen die übliche Summe der Quadrate der Berechnung Sie berechnen für einige Matrix Q, dann bekommt man noch eine Menge mit aa Chi-Quadrat - Verteilung, aber die Freiheitsgrade sind jetzt der Rang von . Es gibt mehr Bedingungen auf der Matrix Q, aber das ist der Kern davon.
Wenn Sie mit einer Matrixnotation , können Sie als quadratische Form ausdrücken . Cochran geht von der Unabhängigkeit der ursprünglichen Normalvariablen aus, weshalb auch die Spalten Ihrer Zählungstabelle unabhängig sein müssen.
quelle
Laut Lehrbuch "Einführende Statistik mit Randomisierung und Simulation", Abschnitt 3.3.2 (Lehrbuch bei OpenIntro frei verfügbar ), versucht die Teststatistik, die Abweichungen des Beobachteten vom Erwarteten zu akkumulieren. Und die Abweichungen werden in der Tat durch den Begriff ausgedrücktχ2
was eigentlich von .
Das Lehrbuch geht weiter zu sagen , daß die wird besser geschätzt durch √(StandardErrorOfTheObserved) , so wird der Term zuZi= O i - E iEi−−√ . Das Lehrbuch erklärt eigentlich nicht, warum diese Substitution akzeptabel ist, und ich würde es auch gerne herausfinden.Zi=Oi−EiEi√
Wie auch immer, Sie können eine Teststatistik des Formulars erstellen
Es ist jedoch besser, alle Terme zu quadrieren, da Sie sofort positive Werte erhalten und die höheren Werte nach dem Quadrieren stärker hervorgehoben werden. Man erhält also:
Aber ich weiß auch nicht, warum diese Summe der Verteilung folgen soll oder wie sie mit der Definition der χ 2- Verteilung (Summe der Quadrate der normalen unabhängigen Variablen) zusammenhängt.χ2 χ2
EDIT: Ich lerne immer noch Statistik und glaube immer noch nicht, dass ich den Test richtig verstehe . Ich hoffe andere können mich auch aufklären.χ2
quelle