Ich arbeite an einem Projekt, in dem wir das Verhalten einer Aufgabe beobachten (z. B. Reaktionszeit) und dieses Verhalten als Funktion mehrerer experimentell manipulierter Variablen sowie mehrerer beobachteter Variablen (Geschlecht der Teilnehmer, IQ der Teilnehmer, Antworten auf eine Folge) modellieren. Fragebogen). Ich habe keine Bedenken hinsichtlich der Multikollinearität zwischen den experimentellen Variablen, da sie speziell manipuliert wurden, um unabhängig zu sein, aber ich bin besorgt über die beobachteten Variablen. Ich bin mir jedoch nicht sicher, wie ich die Unabhängigkeit zwischen den beobachteten Variablen beurteilen soll, teilweise, weil ich je nach Einrichtung des Bewerters etwas unterschiedliche Ergebnisse zu erzielen scheine, und auch, weil ich mit der Korrelation in dem Kontext, in dem eine oder eine sehr wenig vertraut ist, nicht sehr vertraut bin Beide Variablen sind dichotom.
Zum Beispiel gibt es zwei verschiedene Ansätze, um festzustellen, ob das Geschlecht vom IQ unabhängig ist. Ich bin kein Fan von Nullhypothesen-Signifikanztests, daher baue ich in beiden Ansätzen zwei Modelle, eines mit und eines ohne Beziehung, und berechne dann das AIC-korrigierte Log-Likelihood-Verhältnis:
m1 = lm(IQ ~ 1)
m2 = lm(IQ ~ sex)
LLR1 = AIC(m1)-AIC(m2)
m3 = glm(sex~1,family='binomial')
m4 = glm(sex~IQ,family='binomial')
LLR2 = AIC(m3)-AIC(m4)
Diese Ansätze liefern jedoch etwas andere Antworten; LLR1 ist ungefähr 7, was auf starke Beweise für eine Beziehung hindeutet, während LLR2 ungefähr 0,3 ist, was auf sehr schwache Beweise für eine Beziehung hindeutet.
Wenn ich versuche, die Unabhängigkeit zwischen Geschlecht und einer anderen dichotomen beobachteten Variablen, "yn", zu bewerten, hängt das resultierende LLR in ähnlicher Weise davon ab, ob ich die Modelle zur Vorhersage des Geschlechts von yn oder zur Vorhersage von yn vom Geschlecht eingerichtet habe.
Irgendwelche Vorschläge, warum diese Unterschiede auftreten und wie am vernünftigsten vorgegangen werden soll?
quelle
seq
in Ihrem Code ein Tippfehler fürsex
? Wenn Sie IhrenAntworten:
Ich denke, Sie versuchen, P (A | B) und P (B | A) so zu interpretieren, als ob sie dasselbe sein sollten. Aufgrund der Produktregel gibt es keinen Grund, dass sie gleich sind:
Ein Test für "logische / statistische Unabhängigkeit" (aber nicht kausale Unabhängigkeit) zwischen kategorialen Variablen kann gegeben werden als:
Für die Regressionen bedeutet dies, dass der durchschnittliche IQ-Wert zwischen den beiden Werten des Geschlechts unterschiedlich ist, obwohl ich die Skala des AIC-Unterschieds nicht kenne (ist das "groß"?).
Ich bin mir nicht sicher, wie angemessen der AIC für ein binomiales GLM ist. Es ist möglicherweise besser, sich die ANOVA- und Abweichungstabellen für LM und GLM anzusehen.
Haben Sie auch die Daten aufgezeichnet? Plotten Sie immer die Daten !!! Dies kann Ihnen Dinge sagen, die der Test nicht tut. Wie unterschiedlich sehen die IQs aus, wenn sie nach Geschlecht gezeichnet werden? Wie unterschiedlich sehen die Geschlechter aus, wenn sie vom IQ geplottet werden?
quelle
Warum machst du dir Sorgen um Multicolinearität? Der einzige Grund, warum wir diese Annahme bei der Regression benötigen, besteht darin, sicherzustellen, dass wir eindeutige Schätzungen erhalten. Multicolinearität ist nur dann für die Schätzung von Bedeutung, wenn sie perfekt ist - wenn eine Variable eine exakte lineare Kombination der anderen ist.
Wenn Ihre experimentell manipulierten Variablen zufällig zugewiesen wurden, sollten ihre Korrelationen mit den beobachteten Prädiktoren sowie den nicht beobachteten Faktoren (ungefähr) 0 sein. Diese Annahme hilft Ihnen dabei, unvoreingenommene Schätzungen zu erhalten.
Allerdings kann eine nicht perfekte Multicolinearität Ihre Standardfehler vergrößern, jedoch nur bei den Variablen, bei denen das Problem der Multicolinearität auftritt. In Ihrem Kontext sollten die Standardfehler der Koeffizienten Ihrer experimentellen Variablen nicht beeinflusst werden.
quelle