Wie ist Karl Pearson auf die Chi-Quadrat-Statistik gekommen?

14

Wie kam Pearson 1900 auf die folgenden Pearson-Chi-Quadrat-Statistiken?

K=(OijEij)2Eij
dass
Kχ2

Hatte er Chi-Quadrat im Sinn und entwickelte die Metrik K (Bottom-Up-Ansatz) oder entwickelte er die Statistik und bewies später, dass sie der Chi-Quadrat-Verteilung folgt (Top-Down)?

Ich möchte wissen, warum er diese bestimmte Form gewählt hat und nicht andere wie (OijEij)2 oder |OijEij|und auch, warum er das Quadrat mit dem Nenner geteilt hat.

Alby
quelle
1
Das könnte Sie interessieren: Warum die Differenz quadrieren, anstatt den absoluten Wert in Standardabweichung zu nehmen?
gung - Wiedereinsetzung von Monica
1
Es ist natürlich möglich, eine beliebige Anzahl von Statistiken zu haben, die Sie verwenden können. Ihre Alternativen sind vollkommen in Ordnung, obwohl Sie für sie Stichprobenverteilungen ausarbeiten müssten, die sich je nach Anzahl der Zellen unterscheiden würden. Ein Vorteil dieser Form ist, dass sie bestimmte Beziehungen zu anderen Verteilungen hat, z. B. zur Verteilung der Summe der k-Quadrat-Standard-Zufallsvariablen.
gung - Wiedereinsetzung von Monica

Antworten:

23

Pearsons 1900er Artikel ist nicht urheberrechtlich geschützt, daher können wir ihn online lesen .

Beginnen Sie mit der Feststellung, dass es in diesem Artikel um die Güte des Fit-Tests und nicht um den Test der Unabhängigkeit oder Homogenität geht.

Er arbeitet mit der multivariaten Normalen, und das Chi-Quadrat entsteht als Summe der quadrierten standardisierten Normalenvariablen.

Sie können der Diskussion auf S. 160-161 entnehmen, dass er die Anwendung des Tests auf multinomial verteilte Daten klar diskutiert (ich glaube, er verwendet diesen Begriff nirgendwo). Er versteht anscheinend die ungefähre multivariate Normalität des Multinomials (sicherlich weiß er, dass die Ränder ungefähr normal sind - das ist ein sehr altes Ergebnis - und kennt die Mittel, Varianzen und Kovarianzen, da sie in der Zeitung angegeben sind); Ich vermute, dass das meiste davon bereits 1900 ein alter Hut ist.

Dann leitet er am Ende von p163 eine Chi-Quadrat-Statistik als "Maß für die Anpassungsgüte" ab (die Statistik selbst erscheint im Exponenten der multivariaten Normalenapproximation).

Anschließend erörtert er, wie der p-Wert * zu bewerten ist, und gibt dann den oberen Endbereich von nach 43,87 korrekt als 0,000016 an. [Sie sollten jedoch bedenken, dass er zu diesem Zeitpunkt nicht richtig verstanden hat, wie Freiheitsgrade für die Parameterschätzung angepasst werden, sodass einige der Beispiele in seinen Beiträgen einen zu hohen df verwenden.]χ122

* (Beachten Sie, dass weder Fisherian- noch Neyman-Pearson-Testparadigmen existieren, wir sehen jedoch deutlich, dass er das Konzept eines p-Werts bereits anwendet.)

Sie werden feststellen, dass er nicht explizit Begriffe wie schreibt . Stattdessen schreibt er m 1 , m 2 usw. für die erwarteten Zählwerte und für die beobachteten Größen, die er verwendet, m ' 1 und so weiter. Er definiert dann e = m - m (untere Hälfte p160) und berechnet e 2 / m für jede Zelle (siehe Gleichung (xv) p163 und die letzte Spalte der Tabelle am Ende von p167) ... äquivalente Mengen, aber in anderer Notation.(OiEi)2/Eim1m2m1e=mme2/m

Ein Großteil der gegenwärtigen Art, den Chi-Quadrat-Test zu verstehen, ist noch nicht vorhanden, aber auf der anderen Seite ist bereits einiges vorhanden (zumindest, wenn Sie wissen, wonach Sie suchen müssen). In den 1920er Jahren (und danach) ist viel passiert, was die Art und Weise, wie wir diese Dinge betrachten, verändert hat.


Was , warum wir durch dividieren im multinomial Fall geschieht es , dass , obwohl die Varianz der einzelnen Komponenten in einem multinomial ist kleiner als E i , wenn wir für die Kovarianzen - Konto, es äquivalent ist durch nur Dividieren E i , Herstellung für eine schöne Vereinfachung.EiEiEi


In Bearbeitung hinzugefügt:

Die Arbeit von Plackett aus dem Jahr 1983 enthält eine Reihe historischer Zusammenhänge und eine Art Leitfaden für die Arbeit. Ich kann es nur wärmstens empfehlen. Es sieht so aus, als ob es online über JStor kostenlos ist (wenn Sie sich anmelden). Sie sollten also nicht einmal den Zugriff über eine Institution benötigen, um es zu lesen.

Plackett, RL (1983),
"Karl Pearson und der Chi-Quadrat-Test",
International Statistical Review ,
Vol. 51, No. 1 (Apr), S. 59-72

Glen_b - Setzen Sie Monica wieder ein
quelle
1
Ich habe diesen Beitrag gerade noch einmal gelesen und bekomme jedes Mal einen zusätzlichen Einblick. @ Glen_b Ich möchte mich bei Ihnen für Ihre hervorragende Antwort bedanken, die ich vorher hätte tun sollen. Wenn ich zusätzliche Fragen stellen darf, können Sie in Ihrer Erklärung zur Anpassung der Kovarianz durch E mehr darüber ausführen oder mich auf die Ressource verweisen, die diesen Punkt behandelt? Ich kann intuitiv verstehen, warum "Normalisieren" notwendig ist, aber ich möchte meine Intuition mit dem mathematischen Beweis untermauern.
Alby
1
Was die Anpassung an die Kovarianz angeht, wird in dieser Antwort ein wenig darauf eingegangen, und es werden einige Ableitungslinien in der Kategorie 2 (Binomialfall) aufgeführt, die die Beziehung zwischen der Varianz des Binomials und der Aufteilung der beiden Beiträge auf aufzeigen Chi-Quadrat für die Erfolge und Misserfolge von . Es sieht so aus, als ob Sie am Ende etwas anderes suchen, aber wenn Sie es sind, bin ich mir nicht ganz sicher, was es ist. Können Sie das umschreiben? Ei
Glen_b -Reinstate Monica
1
XiCov(Xi,Xj)=E(XiXj)E(Xi)E(Xj)=E(Xi)E(Xj)Xi,Xj>0Cov(Oi,Oj) is just a sum of such covariance terms. (Indeed we can write down the whole (variance-)covariance matrix for a multinomial from that.) Sorry that's a bit brief, but at the bottom of that linked answer is a link with more
Glen_b -Reinstate Monica
Thank you for the link @Glen_b. After reading the post, it's much clearer now! I was naively thinking that the denominator is there to adjust for the initial differences for each cell, thus the term "normalizing", but reading your post I realized I was completely off the mark.
Alby
Leider hat das Wort "normalisieren" mindestens drei verschiedene statistisch relevante Bedeutungen. Ich würde es normalerweise nur als "Standardisieren auf 0 und Standardabweichung 1" bezeichnen, andere dagegen als "Normalisieren" im Sinne einer Normalisierung eines Vektors nach einer bestimmten Norm oder sogar als Transformation zur Annäherung an die Normalität. Da es hier so ein Bugbear ist, sollte ich es jetzt wissen, um es zu vermeiden.
Glen_b -Reinstate Monica