Welche Beziehung besteht zwischen einem Chi-Quadrat-Test und einem Test mit gleichen Anteilen?

Angenommen, ich habe drei Populationen mit vier sich gegenseitig ausschließenden Merkmalen. Ich nehme Zufallsstichproben aus jeder Population und erstelle eine Kreuztabelle oder Häufigkeitstabelle für die von mir gemessenen Merkmale. Habe ich recht, wenn ich sage:

Wenn ich testen möchte, ob eine Beziehung zwischen den Populationen und den Merkmalen besteht (z. B. ob eine Population eine höhere Häufigkeit eines der Merkmale aufweist), sollte ich einen Chi-Quadrat-Test durchführen und prüfen, ob das Ergebnis signifikant ist.
Wenn der Chi-Quadrat-Test signifikant ist, zeigt er mir nur, dass es eine gewisse Beziehung zwischen den Populationen und Merkmalen gibt, aber nicht, wie sie zusammenhängen.
Darüber hinaus müssen nicht alle Merkmale mit der Bevölkerung in Zusammenhang stehen. Wenn beispielsweise die verschiedenen Populationen signifikant unterschiedliche Verteilungen der Merkmale A und B aufweisen, jedoch nicht von C und D, ist der Chi-Quadrat-Test möglicherweise immer noch signifikant.
Wenn ich messen möchte, ob ein bestimmtes Merkmal von der Grundgesamtheit betroffen ist oder nicht, kann ich einen Test zu gleichen Anteilen (ich habe dies als Z-Test oder wie prop.test()in bezeichnet R) nur für dieses Merkmal durchführen.

Mit anderen Worten, ist es angemessen, das zu verwenden prop.test(), um die Art einer Beziehung zwischen zwei Gruppen von Kategorien genauer zu bestimmen, wenn der Chi-Quadrat-Test angibt, dass eine signifikante Beziehung besteht?

chi-squared proportion contingency-tables z-test hgcrpd
quelle

Lesen Sie auch: stats.stackexchange.com/q/173415/3277 .

TTNPHNS

Antworten:

Sehr kurze Antwort:

Der Chi-Quadrat-Test ( chisq.test()in R) vergleicht die beobachteten Häufigkeiten in jeder Kategorie einer Kontingenztabelle mit den erwarteten Häufigkeiten (berechnet als Produkt der Grenzfrequenzen). Es wird verwendet, um zu bestimmen, ob die Abweichungen zwischen der beobachteten und der erwarteten Anzahl zu groß sind, um sie dem Zufall zuzuschreiben. Die Abweichung von der Unabhängigkeit kann leicht durch Überprüfen der Reste überprüft werden (versuchen Sie es mit ?mosaicplotoder ?assocplot, aber sehen Sie sich auch das vcdPaket an). Verwenden Sie fisher.test()für einen genauen Test (unter Berücksichtigung der hypergeometrischen Verteilung).

Mit der prop.test()Funktion in R kann geprüft werden, ob die Anteile zwischen den Gruppen vergleichbar sind oder sich nicht von den theoretischen Wahrscheinlichkeiten unterscheiden. Es wird als Test bezeichnet, da die Teststatistik folgendermaßen aussieht: $z$

z = \frac{(f_{1} - f_{2})}{\sqrt{\hat{p} (1 - \hat{p}) (\frac{1}{n_{1}} + \frac{1}{n_{2}})}}

$z=\frac{(f_1-f_2)}{\sqrt{\hat p \left(1-\hat p \right) \left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$

Dabei beziehen sich und die Indizes auf die erste und zweite Zeile Ihrer Tabelle. In einer Kontingenztabelle, in der , dies sollte zu vergleichbaren Ergebnissen führen wie der gewöhnliche Test: $\hat p=(p_1+p_2)/(n_1+n_2)$ $(1,2)$ $H_0:\; p_1=p_2$ $\chi^2$

> tab <- matrix(c(100, 80, 20, 10), ncol = 2)
> chisq.test(tab)

    Pearson's Chi-squared test with Yates' continuity correction

data:  tab 
X-squared = 0.8823, df = 1, p-value = 0.3476

> prop.test(tab)

    2-sample test for equality of proportions with continuity correction

data:  tab 
X-squared = 0.8823, df = 1, p-value = 0.3476
alternative hypothesis: two.sided 
95 percent confidence interval:
 -0.15834617  0.04723506 
sample estimates:
   prop 1    prop 2 
0.8333333 0.8888889

Für die Analyse diskreter Daten mit R empfehle ich dringend das R- (und S-PLUS-) Handbuch von Laura Thompson , Accompany Agrestis Categorical Data Analysis (2002) .

chl
quelle

Gibt es einen allgemeinen Namen für den Test, den prop.test () ausführt?

Atticus29

"Es wird als Z-Test bezeichnet".

Russellpierce

@chl Ich bin ein bisschen verwirrt - ich dachte, prop.testund chisq.testbeide verwenden das Chi-Quadrat, das die identischen p-Werte erklären würde, sowie warum sie in diesem Beitrag über R-Blogger ihre eigene Ad-hoc-Funktion haben.

Antoni Parellada

@Antoni Ja, das hat Keith in seiner Antwort erklärt.

chl

was ist und , , , , ?

n_{1}

$n_1$

n_{2}

$n_2$

f_{1}

$f_1$

f_{2}

$f_2$

p_{1}

$p_1$

p_{2}

$p_2$

Tomka

Ein Chi-Quadrat-Test für die Gleichheit von zwei Anteilen ist genau dasselbe wie ein -Test . Die Chi-Quadrat-Verteilung mit einem Freiheitsgrad entspricht genau der einer normalen Abweichung im Quadrat. Sie wiederholen den Chi-Quadrat-Test im Grunde nur für eine Teilmenge der Kontingenztabelle. (Aus diesem Grund erhält @chl bei beiden Tests den exakt gleichen Wert .) $z$ $p$

Das Problem, den Chi-Quadrat-Test zuerst global durchzuführen und dann weiter nach unten zu tauchen, um weitere Tests für Teilmengen durchzuführen, besteht darin, dass Sie Ihr Alpha nicht unbedingt beibehalten - das heißt, dass Sie falsche Positive nicht auf weniger als 5% (oder weniger) kontrollieren Was auch immer ) über das gesamte Experiment. $\alpha$

Ich denke, wenn Sie dies im klassischen Paradigma richtig machen wollen, müssen Sie zu Beginn Ihre Hypothesen identifizieren (welche Proportionen zu vergleichen sind), die Daten sammeln und dann die Hypothesen so testen, dass der Gesamtschwellenwert für die Signifikanz der einzelnen Testsummen ermittelt wird zu . Es sei denn, Sie können a priori nachweisen , dass eine gewisse Korrelation besteht. $\alpha$

Der leistungsstärkste Test für die Gleichheit der Proportionen heißt Barnards Überlegenheitstest .

Keith Winstein
quelle

@gung Ich bin ein bisschen verwirrt - ich dachte, prop.testund chisq.testbeide verwenden das Chi-Quadrat, das die identischen p-Werte erklären würde, sowie warum sie in diesem Beitrag über R-Blogger ihre eigene Ad-hoc-Funktion haben.

Antoni Parellada

Ich verstehe nicht, was dich verwirrt, @AntoniParellada. Diese Antwort besagt, dass sie "genau gleich" sind, was sinnvoll ist, wenn "beide das Chi-Quadrat verwenden".

gung - Wiedereinsetzung von Monica

@gung in der ursprünglichen Antwort chl gibt an, dass prop.test()... im Gegensatz zu als Z-Test bezeichnet wird chisq.test(). Später sagt Keith: "Ein Chi-Quadrat-Test für die Gleichheit von zwei Anteilen ist genau dasselbe wie ein Z-Test. (Aus diesem Grund erhält @chl bei beiden Tests den exakt gleichen p-Wert.)

Antoni Parellada,

Das scheint nur eine unfehlbare Formulierung zu sein, @AntoniParellada. Konzeptionell sind die beiden Tests unterschiedlich, worauf ich in meiner anderen Antwort eingegangen bin. Aber mathematisch sind sie gleichwertig. Tatsächlich glaube ich, dass die R-Funktion die Ausgabe prop.test()einfach chisq.test()anders aufruft und druckt.

gung - Wiedereinsetzung von Monica

@gung Ich hatte an einer Funktion gearbeitet, die R-Bloggern ähnlich war, und wollte einen Beitrag für Anfänger erstellen, in dem ich Sie in Bezug auf einige Schlüsselbegriffe zitierte, die Sie geschrieben haben, und die Mathematik sowohl für Chi durchlief Quadrat und Z-Test, und geben Sie dann den R-Code.

Antoni Parellada