Es gibt viel über Kollinearität in Bezug auf kontinuierliche Prädiktoren, aber nicht so viel, was ich bei kategorialen Prädiktoren finden kann. Ich habe Daten dieses Typs unten abgebildet.
Der erste Faktor ist eine genetische Variable (Allelzahl), der zweite Faktor ist eine Krankheitskategorie. Offensichtlich gehen die Gene der Krankheit voraus und sind ein Faktor, der Symptome zeigt, die zu einer Diagnose führen. Eine regelmäßige Analyse unter Verwendung von Quadratsummen vom Typ II oder III, wie sie üblicherweise bei Psychologen mit SPSS durchgeführt wird, übersieht jedoch den Effekt. Eine Quadratsummenanalyse vom Typ I nimmt sie auf, wenn die entsprechende Reihenfolge eingegeben wird, da sie auftragsabhängig ist. Ferner gibt es wahrscheinlich zusätzliche Komponenten des Krankheitsprozesses, die nicht mit dem Gen zusammenhängen und nicht gut mit Typ II oder III identifiziert sind, siehe Anova (lm1) unten gegenüber lm2 oder Anova.
Beispieldaten:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- lm1 mit Typ I SS scheint mir der geeignete Weg zu sein, um die Daten unter Berücksichtigung der Hintergrundtheorie zu analysieren. Ist meine Annahme richtig?
- Ich bin es gewohnt, orthogonale Designs explizit zu manipulieren, bei denen diese Probleme normalerweise nicht auftreten. Ist es schwierig, Gutachter davon zu überzeugen, dass dies der beste Prozess ist (vorausgesetzt, Punkt 1 ist korrekt), im Kontext eines SPSS-zentrierten Feldes?
- Und was ist im Statistikbereich zu berichten? Irgendwelche zusätzlichen Analysen oder Kommentare, die eingehen sollten?
quelle
Antworten:
Die Kollinearität zwischen Faktoren ist ziemlich kompliziert. Das klassische Beispiel ist das, das Sie erhalten, wenn Sie die drei kontinuierlichen Variablen 'Alter', 'Zeitraum' und 'Jahr' gruppieren und Dummy-codieren. Es wird analysiert in:
Die Koeffizienten, die Sie nach dem Entfernen von vier (nicht drei) Referenzen erhalten, werden nur bis zu einem unbekannten linearen Trend identifiziert. Dies kann analysiert werden, da die Kollinearität aus einer bekannten Kollinearität in den Quellvariablen (Alter + Jahr = Zeitraum) resultiert.
Einige Arbeiten wurden auch zur falschen Kollinearität zwischen zwei Faktoren durchgeführt. Es wurde analysiert in:
Das Ergebnis ist, dass Kollinearität zwischen kategorialen Variablen bedeutet, dass der Datensatz in getrennte Teile mit einem Referenzpegel in jeder Komponente aufgeteilt werden muss. Geschätzte Koeffizienten aus verschiedenen Komponenten können nicht direkt verglichen werden.
Bei komplizierteren Kollinearitäten zwischen drei oder mehr Faktoren ist die Situation kompliziert. Es gibt Verfahren zum Finden schätzbarer Funktionen, dh lineare Kombinationen der Koeffizienten, die interpretierbar sind, z. B.:
Meines Wissens gibt es jedoch keine allgemeine Silberkugel für den intuitiven Umgang mit solchen Kollinearitäten.
quelle
Nach einem Gespräch mit einigen der Statistik-Leute in der Umgebung. Es scheint, dass diese Art von Frage möglicherweise nicht die richtigste Frage ist, die zu beantworten ist. Die Verwendung von ANOVA (oder ähnlichen Methoden) zur Untersuchung genetischer und diagnostischer Wechselwirkungen bei neuropsychologischen Maßnahmen, wenn diese stark korrelieren, ist eine schwierige Frage. Ich wurde stattdessen darauf hingewiesen, die Struktur der Daten mit Strukturgleichungsmodellierung zu untersuchen.
Diese Antwort wird aktualisiert, sobald ich mehr über SEM erfahre.
quelle