Ich habe klassifizierte Daten in einer 2 x 2 x 6-Tabelle. Nennen wir die Dimensionen response
, A
und B
. Ich passe eine logistische Regression an die Daten mit dem Modell an response ~ A * B
. Eine Analyse der Abweichung dieses Modells besagt, dass beide Begriffe und ihre Interaktion von Bedeutung sind.
Betrachtet man jedoch die Anteile der Daten, so sieht es so aus, als wären nur etwa zwei Ebenen B
für diese signifikanten Effekte verantwortlich. Ich würde gerne testen, welche Level die Schuldigen sind. Im Moment besteht mein Ansatz darin, 6 Chi-Quadrat-Tests an 2 x 2 Tabellen von durchzuführen response ~ A
und dann die p-Werte aus diesen Tests für mehrere Vergleiche anzupassen (unter Verwendung der Holm-Anpassung).
Meine Frage ist, ob es einen besseren Ansatz für dieses Problem gibt. Gibt es einen prinzipielleren Modellierungsansatz oder einen Vergleichsansatz für mehrere Chi-Quadrat-Tests?
Antworten:
Sie sollten sich mit "Partitionieren von Chi-Quadrat" befassen. Dies ähnelt in der Logik der Durchführung von Post-hoc-Tests in ANOVA. Auf diese Weise können Sie feststellen, ob Ihr signifikanter Gesamttest hauptsächlich auf Unterschiede in bestimmten Kategorien oder Gruppen von Kategorien zurückzuführen ist.
Ein kurzer Blick auf Google zeigte diese Präsentation, in der am Ende Methoden zum Partitionieren von Chi-Quadrat erläutert werden.
http://www.ed.uiuc.edu/courses/EdPsy490AT/lectures/2way_chi-ha-online.pdf
quelle
Der prinzipienlose Ansatz besteht darin, die unverhältnismäßigen Daten zu verwerfen, das Modell neu anzupassen und festzustellen, ob die logit / bedingten Quotenverhältnisse für Antwort und A sehr unterschiedlich sind (Kontrolle für B). Dies könnte Ihnen sagen, ob Anlass zur Sorge besteht. Die Bündelung der Ebenen von B ist ein weiterer Ansatz. Auf prinzipielleren Linien: Wenn Sie sich Sorgen über relative Proportionen machen, die das Simpson-Paradoxon auslösen, können Sie die bedingten und marginalen Quotenverhältnisse für Antwort / A untersuchen und feststellen, ob sie sich umkehren.
Um insbesondere Mehrfachvergleiche zu vermeiden, fällt mir nur ein hierarchisches Modell ein, das zufällige Effekte über Ebenen hinweg berücksichtigt.
quelle
Ich weiß nicht genau, was Ihre Ziele sind oder warum sie das sind, was sie sind. Aber anstatt Hypothesentests durchzuführen, empfehle ich normalerweise, die Aufmerksamkeit auf Vorhersagen und Konfidenzintervalle zu richten.
quelle
Der Post-Hoc-Test passt möglicherweise zu Ihrem Problem. chisqPostHoc () funktioniert in R-Tests auf signifikante Unterschiede zwischen allen Populationspaaren in einem Chi-Quadrat-Test. Obwohl ich es nicht benutzt habe, kann dieser Link nützlich sein. https://www.rforge.net/doc/packages/NCStats/chisqPostHoc.html
Eine andere Alternative kann die Funktion chisq.desc () aus dem EnQuireR-Paket sein.
quelle