Wie kam Pearson 1900 auf die folgenden Pearson-Chi-Quadrat-Statistiken?
dass
Hatte er Chi-Quadrat im Sinn und entwickelte die Metrik (Bottom-Up-Ansatz) oder entwickelte er die Statistik und bewies später, dass sie der Chi-Quadrat-Verteilung folgt (Top-Down)?
Ich möchte wissen, warum er diese bestimmte Form gewählt hat und nicht andere wie oder und auch, warum er das Quadrat mit dem Nenner geteilt hat.
Antworten:
Pearsons 1900er Artikel ist nicht urheberrechtlich geschützt, daher können wir ihn online lesen .
Beginnen Sie mit der Feststellung, dass es in diesem Artikel um die Güte des Fit-Tests und nicht um den Test der Unabhängigkeit oder Homogenität geht.
Er arbeitet mit der multivariaten Normalen, und das Chi-Quadrat entsteht als Summe der quadrierten standardisierten Normalenvariablen.
Sie können der Diskussion auf S. 160-161 entnehmen, dass er die Anwendung des Tests auf multinomial verteilte Daten klar diskutiert (ich glaube, er verwendet diesen Begriff nirgendwo). Er versteht anscheinend die ungefähre multivariate Normalität des Multinomials (sicherlich weiß er, dass die Ränder ungefähr normal sind - das ist ein sehr altes Ergebnis - und kennt die Mittel, Varianzen und Kovarianzen, da sie in der Zeitung angegeben sind); Ich vermute, dass das meiste davon bereits 1900 ein alter Hut ist.
Dann leitet er am Ende von p163 eine Chi-Quadrat-Statistik als "Maß für die Anpassungsgüte" ab (die Statistik selbst erscheint im Exponenten der multivariaten Normalenapproximation).
Anschließend erörtert er, wie der p-Wert * zu bewerten ist, und gibt dann den oberen Endbereich von nach 43,87 korrekt als 0,000016 an. [Sie sollten jedoch bedenken, dass er zu diesem Zeitpunkt nicht richtig verstanden hat, wie Freiheitsgrade für die Parameterschätzung angepasst werden, sodass einige der Beispiele in seinen Beiträgen einen zu hohen df verwenden.]χ212
* (Beachten Sie, dass weder Fisherian- noch Neyman-Pearson-Testparadigmen existieren, wir sehen jedoch deutlich, dass er das Konzept eines p-Werts bereits anwendet.)
Sie werden feststellen, dass er nicht explizit Begriffe wie schreibt . Stattdessen schreibt er m 1 , m 2 usw. für die erwarteten Zählwerte und für die beobachteten Größen, die er verwendet, m ' 1 und so weiter. Er definiert dann e = m - m ′ (untere Hälfte p160) und berechnet e 2 / m für jede Zelle (siehe Gleichung (xv) p163 und die letzte Spalte der Tabelle am Ende von p167) ... äquivalente Mengen, aber in anderer Notation.(Oi−Ei)2/Ei m1 m2 m′1 e=m−m′ e2/m
Ein Großteil der gegenwärtigen Art, den Chi-Quadrat-Test zu verstehen, ist noch nicht vorhanden, aber auf der anderen Seite ist bereits einiges vorhanden (zumindest, wenn Sie wissen, wonach Sie suchen müssen). In den 1920er Jahren (und danach) ist viel passiert, was die Art und Weise, wie wir diese Dinge betrachten, verändert hat.
Was , warum wir durch dividieren im multinomial Fall geschieht es , dass , obwohl die Varianz der einzelnen Komponenten in einem multinomial ist kleiner als E i , wenn wir für die Kovarianzen - Konto, es äquivalent ist durch nur Dividieren E i , Herstellung für eine schöne Vereinfachung.Ei Ei Ei
In Bearbeitung hinzugefügt:
Die Arbeit von Plackett aus dem Jahr 1983 enthält eine Reihe historischer Zusammenhänge und eine Art Leitfaden für die Arbeit. Ich kann es nur wärmstens empfehlen. Es sieht so aus, als ob es online über JStor kostenlos ist (wenn Sie sich anmelden). Sie sollten also nicht einmal den Zugriff über eine Institution benötigen, um es zu lesen.
Plackett, RL (1983),
"Karl Pearson und der Chi-Quadrat-Test",
International Statistical Review ,
Vol. 51, No. 1 (Apr), S. 59-72
quelle