Eine Anfängerfrage zum Pearson-Residuum im Rahmen des Chi-Quadrat-Tests für die Anpassungsgüte:
Neben der Teststatistik gibt die chisq.test
Funktion von R den Pearson-Residuum an:
(obs - exp) / sqrt(exp)
Ich verstehe, warum ein Blick auf den rohen Unterschied zwischen beobachteten und erwarteten Werten nicht so aussagekräftig ist, da eine kleinere Stichprobe zu einem geringeren Unterschied führt. Ich würde jedoch gerne mehr über die Wirkung des Nenners erfahren: Warum durch die Wurzel des erwarteten Wertes dividieren? Ist das ein "standardisierter" Residuum?
chi-squared
goodness-of-fit
residuals
Iain Dillingham
quelle
quelle
stdres
für standardisierte Residuen gibt.chisq.test
auch diestdres
Komponente berechnet wird?Antworten:
Das statistische Standardmodell, das der Analyse von Kontingenztabellen zugrunde liegt, geht davon aus, dass die Zellenzahlen (vorbehaltlos von der Gesamtzahl) unabhängige Poisson-Zufallsvariablen sind. Wenn Sie also einen × m Kontingenztabelle haben, nimmt das statistische Modell, das als Grundlage für die Analyse verwendet wird, an, dass jede Zellenzahl eine bedingungslose Verteilung aufweist:
Sobald Sie eine Gesamtzellenzahl für die Kontingenztabelle oder eine Zeilen- oder Spaltenanzahl festlegen, werden die resultierenden bedingten Verteilungen der Zellenzahlen multinomial. In jedem Fall haben wir für eine Poisson-VerteilungE ( Xich , j) = V ( Xich , j) = μich , j , daher ist die standardisierte Zellenzahl:
Was Sie also in der Formel sehen, nach der Sie fragen, ist die standardisierte Zellenzahl unter der Annahme, dass die Zellenzahlen eine (bedingungslose) Poisson-Verteilung haben.
Von hier aus ist es üblich, die Unabhängigkeit der Zeilen- und Spaltenvariablen in den Daten zu testen. In diesem Fall können Sie eine Teststatistik verwenden, die die Quadratsumme der obigen Werte betrachtet (die der Quadratnorm entspricht) des Vektors der standardisierten Werte). Der Chi-Quadrat-Test liefert einen p-Wert für diese Art von Test, basierend auf einer Näherung mit großer Stichprobe an die Nullverteilung der Teststatistik. Es wird normalerweise in Fällen angewendet, in denen keine der Verkaufszahlen zu gering ist.
quelle
Im Zusammenhang mit der Anpassungsgüte können Sie auf diese http://www.stat.yale.edu/Courses/1997-98/101/chigf.htm verweisen .
Wenn Sie wissen möchten, wie der Nenner dorthin gelangt ist, müssen Sie das Chi-Quadrat hier zunächst als eine normale Annäherung an das Binom betrachten, die dann auf Multinomiale erweitert werden kann.
quelle