Angenommen, ich habe drei Populationen mit vier sich gegenseitig ausschließenden Merkmalen. Ich nehme Zufallsstichproben aus jeder Population und erstelle eine Kreuztabelle oder Häufigkeitstabelle für die von mir gemessenen Merkmale. Habe ich recht, wenn ich sage:
Wenn ich testen möchte, ob eine Beziehung zwischen den Populationen und den Merkmalen besteht (z. B. ob eine Population eine höhere Häufigkeit eines der Merkmale aufweist), sollte ich einen Chi-Quadrat-Test durchführen und prüfen, ob das Ergebnis signifikant ist.
Wenn der Chi-Quadrat-Test signifikant ist, zeigt er mir nur, dass es eine gewisse Beziehung zwischen den Populationen und Merkmalen gibt, aber nicht, wie sie zusammenhängen.
Darüber hinaus müssen nicht alle Merkmale mit der Bevölkerung in Zusammenhang stehen. Wenn beispielsweise die verschiedenen Populationen signifikant unterschiedliche Verteilungen der Merkmale A und B aufweisen, jedoch nicht von C und D, ist der Chi-Quadrat-Test möglicherweise immer noch signifikant.
Wenn ich messen möchte, ob ein bestimmtes Merkmal von der Grundgesamtheit betroffen ist oder nicht, kann ich einen Test zu gleichen Anteilen (ich habe dies als Z-Test oder wie
prop.test()
in bezeichnetR
) nur für dieses Merkmal durchführen.
Mit anderen Worten, ist es angemessen, das zu verwenden prop.test()
, um die Art einer Beziehung zwischen zwei Gruppen von Kategorien genauer zu bestimmen, wenn der Chi-Quadrat-Test angibt, dass eine signifikante Beziehung besteht?
Antworten:
Sehr kurze Antwort:
Der Chi-Quadrat-Test (
chisq.test()
in R) vergleicht die beobachteten Häufigkeiten in jeder Kategorie einer Kontingenztabelle mit den erwarteten Häufigkeiten (berechnet als Produkt der Grenzfrequenzen). Es wird verwendet, um zu bestimmen, ob die Abweichungen zwischen der beobachteten und der erwarteten Anzahl zu groß sind, um sie dem Zufall zuzuschreiben. Die Abweichung von der Unabhängigkeit kann leicht durch Überprüfen der Reste überprüft werden (versuchen Sie es mit?mosaicplot
oder?assocplot
, aber sehen Sie sich auch dasvcd
Paket an). Verwenden Siefisher.test()
für einen genauen Test (unter Berücksichtigung der hypergeometrischen Verteilung).Mit derz
prop.test()
Funktion in R kann geprüft werden, ob die Anteile zwischen den Gruppen vergleichbar sind oder sich nicht von den theoretischen Wahrscheinlichkeiten unterscheiden. Es wird als Test bezeichnet, da die Teststatistik folgendermaßen aussieht:Dabei beziehen sich und die Indizes auf die erste und zweite Zeile Ihrer Tabelle. In einer Kontingenztabelle, in der , dies sollte zu vergleichbaren Ergebnissen führen wie der gewöhnliche Test:(1,2)H0:p^=(p1+p2)/(n1+n2) (1,2) ≤ 2H0:p1=p2 χ2
Für die Analyse diskreter Daten mit R empfehle ich dringend das R- (und S-PLUS-) Handbuch von Laura Thompson , Accompany Agrestis Categorical Data Analysis (2002) .
quelle
prop.test
undchisq.test
beide verwenden das Chi-Quadrat, das die identischen p-Werte erklären würde, sowie warum sie in diesem Beitrag über R-Blogger ihre eigene Ad-hoc-Funktion haben.Ein Chi-Quadrat-Test für die Gleichheit von zwei Anteilen ist genau dasselbe wie ein -Test . Die Chi-Quadrat-Verteilung mit einem Freiheitsgrad entspricht genau der einer normalen Abweichung im Quadrat. Sie wiederholen den Chi-Quadrat-Test im Grunde nur für eine Teilmenge der Kontingenztabelle. (Aus diesem Grund erhält @chl bei beiden Tests den exakt gleichen Wert .)pz p
Das Problem, den Chi-Quadrat-Test zuerst global durchzuführen und dann weiter nach unten zu tauchen, um weitere Tests für Teilmengen durchzuführen, besteht darin, dass Sie Ihr Alpha nicht unbedingt beibehalten - das heißt, dass Sie falsche Positive nicht auf weniger als 5% (oder weniger) kontrollieren Was auch immer ) über das gesamte Experiment.α
Ich denke, wenn Sie dies im klassischen Paradigma richtig machen wollen, müssen Sie zu Beginn Ihre Hypothesen identifizieren (welche Proportionen zu vergleichen sind), die Daten sammeln und dann die Hypothesen so testen, dass der Gesamtschwellenwert für die Signifikanz der einzelnen Testsummen ermittelt wird zu . Es sei denn, Sie können a priori nachweisen , dass eine gewisse Korrelation besteht.α
Der leistungsstärkste Test für die Gleichheit der Proportionen heißt Barnards Überlegenheitstest .
quelle
prop.test
undchisq.test
beide verwenden das Chi-Quadrat, das die identischen p-Werte erklären würde, sowie warum sie in diesem Beitrag über R-Blogger ihre eigene Ad-hoc-Funktion haben.prop.test()
... im Gegensatz zu als Z-Test bezeichnet wirdchisq.test()
. Später sagt Keith: "Ein Chi-Quadrat-Test für die Gleichheit von zwei Anteilen ist genau dasselbe wie ein Z-Test. (Aus diesem Grund erhält @chl bei beiden Tests den exakt gleichen p-Wert.)prop.test()
einfachchisq.test()
anders aufruft und druckt.