Gelegentlich sehe ich in der Literatur, dass eine kategoriale Variable wie das Geschlecht in der Regressionsanalyse (mit festen oder gemischten Effekten) „partialliert“ oder „zurückgebildet“ wird. Ich bin beunruhigt über die folgenden praktischen Probleme, die mit einer solchen Aussage verbunden sind:
(1) Normalerweise wird die Codierungsmethode in der Veröffentlichung nicht erwähnt. Eine solche Variable muss mit quantitativen Werten codiert werden, und ich denke, der sinnvolle Weg sollte die Effektcodierung sein (z. B. männlich = 1, weiblich = -1), damit eine Partialisierung mit anderen Effekten erreicht werden kann, die im großen Mittelwert beider Geschlechter interpretiert werden Gruppen. Eine andere Codierung kann zu einer anderen (und unerwünschten) Interpretation führen. Zum Beispiel würde eine Dummy-Codierung (z. B. männlich = 0, weiblich = 1) andere mit Männern verbundene Effekte hinterlassen, nicht den großen Mittelwert. Selbst das Zentrieren dieser Dummy-codierten Variablen funktioniert möglicherweise nicht gut für ihren Teilzweck, wenn die Anzahl der Probanden in beiden Gruppen ungleich ist. Hab ich recht?
(2) Wenn die Auswirkung einer solchen kategorialen Variablen in das Modell einbezogen wird, erscheint zunächst eine Untersuchung ihrer Auswirkungen erforderlich, die aufgrund ihrer Auswirkungen auf die Interpretation anderer Auswirkungen im Zusammenhang erörtert werden sollte. Was mich beunruhigt, ist, dass die Autoren manchmal nicht einmal die Bedeutung des Sexualeffekts erwähnen, geschweige denn einen Modellbildungsprozess. Wenn der Geschlechtseffekt vorliegt, ist eine natürliche Folgefrage, ob Wechselwirkungen zwischen dem Geschlecht und anderen Variablen im Modell bestehen. Wenn kein Sex-Effekt und keine Interaktionen vorhanden sind, sollte Sex aus dem Modell entfernt werden.
(3) Wenn Sex für diese Autoren als nicht interessant angesehen wird, wozu sollte er dann überhaupt in das Modell aufgenommen werden, ohne seine Auswirkungen zu überprüfen? Erhält die Einbeziehung einer solchen kategorialen Variablen (und die Kosten für einen Freiheitsgrad für die feste Wirkung des Geschlechts) etwas für ihren besonderen Zweck, wenn eine sexuelle Wirkung vorliegt (meine begrenzte Erfahrung sagt im Wesentlichen nein)?
quelle
Antworten:
Ich denke nicht, dass (1) einen Unterschied macht. Die Idee ist, die Auswirkungen des Geschlechts von der Reaktion und den anderen Prädiktoren zu trennen. Es spielt keine Rolle, ob Sie 0, 1 (Behandlungskontraste) oder 1, -1 (Summe zu Null-Kontrasten) codieren, da die Modelle dieselbe "Menge" an Informationen darstellen, die dann entfernt werden. Hier ist ein Beispiel in R:
Von diesen beiden Modellen sind die Residuen gleich und es sind diese Informationen, die man dann in das nachfolgende Modell aufnehmen würde (plus dasselbe, was den Sex-Effekt von den anderen Kovariaten entfernt):
Ich stimme (2) zu, aber bei (3), wenn Sex für die Forscher kein Interesse ist, möchten sie möglicherweise immer noch die Auswirkungen auf Sex kontrollieren, sodass mein Nullmodell Sex enthält und ich Alternativen mit zusätzlichen Kovariaten teste plus Sex. Ihr Standpunkt zu Interaktionen und zum Testen der Auswirkungen der nicht interessanten Variablen ist eine wichtige und gültige Beobachtung.
quelle
Es ist wahr, dass die Wahl der Codierungsmethode Einfluss darauf hat, wie Sie die Modellkoeffizienten interpretieren. Nach meiner Erfahrung (und mir ist klar, dass dies von Ihrem Fachgebiet abhängen kann) ist die Dummy-Codierung so weit verbreitet, dass die Leute kein großes Problem damit haben.
Wenn in diesem Beispiel männlich = 0 und weiblich = 1 ist, ist der Achsenabschnitt im Grunde die mittlere Antwort für Männer, und der Geschlechtskoeffizient ist die Auswirkung auf die Antwort aufgrund der weiblichen Zugehörigkeit (der "weibliche Effekt"). Die Dinge werden komplizierter, wenn Sie sich mit kategorialen Variablen mit mehr als zwei Ebenen befassen, aber das Interpretationsschema erstreckt sich auf natürliche Weise.
Dies bedeutet letztendlich, dass Sie darauf achten sollten, dass alle wesentlichen Schlussfolgerungen, die Sie aus der Analyse ziehen, nicht von der verwendeten Codierungsmethode abhängen.
quelle
Denken Sie jedoch daran, dass dieser Fehler durch Hinzufügen zusätzlicher Faktoren verringert wird. Auch wenn das Geschlecht in Ihrem Modell unbedeutend ist, kann es in der Studie dennoch nützlich sein. Die Signifikanz kann in jedem Faktor gefunden werden, wenn die Stichprobengröße groß genug ist. Umgekehrt ist ein signifikanter Effekt möglicherweise nicht testbar, wenn die Stichprobengröße nicht groß genug ist. Daher gute Modellbildung und Leistungsanalyse.
quelle
Es sieht so aus, als könnte ich Dr. Simpsons Antwort keinen langen Kommentar direkt hinzufügen. Entschuldigung, ich muss meine Antwort hier eintragen.
Ich freue mich sehr über Ihre Antwort, Dr. Simpson! Ich sollte meine Argumente ein wenig klarstellen. Was ich mit dem Teilgeschäft zu tun habe, ist kein theoretisches, sondern ein praktisches Problem. Angenommen, ein lineares Regressionsmodell hat die folgende Form
y = a + b * Geschlecht + andere feste Effekte + Residuen
Ich stimme voll und ganz zu, dass wir aus theoretischer Sicht unabhängig davon, wie wir die Geschlechtsvariable quantifizieren, dieselben Residuen haben würden. Auch wenn ich die Themen mit einigen verrückten Zahlen wie männlich = 10,7 und weiblich = 53.65, Code würde ich immer noch die gleichen Reste wie erhalten
r1
undr2
in Ihrem Beispiel. In diesen Papieren geht es jedoch nicht um die Residuen. Stattdessen liegt der Fokus auf der Interpretation des Abschnittsa
und anderer fester Effekte im obigen Modell, und dies kann zu Problemen beim Partialling führen. Vor diesem Hintergrund scheint die Kodierung des Geschlechts eine große Konsequenz für die Interpretation aller anderen Effekte im obigen Modell zu haben. Mit Dummy-Codierung (options(contrasts = c("contr.treatment", "contr.poly"))
In R) sollten alle anderen Effekte außer 'b' so interpretiert werden, dass sie mit der Geschlechtsgruppe mit dem Code "0" (Männer) assoziiert sind. Bei der Effektcodierung (options(contrasts = c("contr.sum", "contr.poly"))
in R) sind alle anderen Effekte außerb
den durchschnittlichen Effekten für die gesamte Bevölkerung, unabhängig vom Geschlecht.Anhand Ihres Beispiels vereinfacht sich das Modell zu
y = a + b * Geschlecht + Residuen.
Das Problem lässt sich anhand der folgenden Schätzung des Abschnitts deutlich erkennen
a
:Schließlich muss ich wohl zustimmen, dass mein ursprüngliches Argument (3) möglicherweise nicht gültig ist. Setzen Sie Ihr Beispiel fort,
Es scheint, dass die Einbeziehung von Sex in das Modell die Effektschätzung nicht ändert, aber die statistische Aussagekraft erhöht, da durch den Sex-Effekt mehr Variabilität in den Daten berücksichtigt wird. Meine vorherige Illusion in Argument (3) stammt möglicherweise aus einem Datensatz mit einer riesigen Stichprobengröße, bei dem sich das Hinzufügen von Sex zum Modell für die Bedeutung anderer Effekte nicht wesentlich geändert hat.
Bei der konventionellen Analyse des ausgeglichenen ANOVA-Typs hat ein Faktor zwischen Subjekten wie Geschlecht aufgrund der orthogonalen Aufteilung der Varianzen keine Auswirkungen auf die Effekte, die nicht mit dem Faktor zusammenhängen.
quelle