Partizipieren oder Regressieren einer kategorialen Variablen?

9

Gelegentlich sehe ich in der Literatur, dass eine kategoriale Variable wie das Geschlecht in der Regressionsanalyse (mit festen oder gemischten Effekten) „partialliert“ oder „zurückgebildet“ wird. Ich bin beunruhigt über die folgenden praktischen Probleme, die mit einer solchen Aussage verbunden sind:

(1) Normalerweise wird die Codierungsmethode in der Veröffentlichung nicht erwähnt. Eine solche Variable muss mit quantitativen Werten codiert werden, und ich denke, der sinnvolle Weg sollte die Effektcodierung sein (z. B. männlich = 1, weiblich = -1), damit eine Partialisierung mit anderen Effekten erreicht werden kann, die im großen Mittelwert beider Geschlechter interpretiert werden Gruppen. Eine andere Codierung kann zu einer anderen (und unerwünschten) Interpretation führen. Zum Beispiel würde eine Dummy-Codierung (z. B. männlich = 0, weiblich = 1) andere mit Männern verbundene Effekte hinterlassen, nicht den großen Mittelwert. Selbst das Zentrieren dieser Dummy-codierten Variablen funktioniert möglicherweise nicht gut für ihren Teilzweck, wenn die Anzahl der Probanden in beiden Gruppen ungleich ist. Hab ich recht?

(2) Wenn die Auswirkung einer solchen kategorialen Variablen in das Modell einbezogen wird, erscheint zunächst eine Untersuchung ihrer Auswirkungen erforderlich, die aufgrund ihrer Auswirkungen auf die Interpretation anderer Auswirkungen im Zusammenhang erörtert werden sollte. Was mich beunruhigt, ist, dass die Autoren manchmal nicht einmal die Bedeutung des Sexualeffekts erwähnen, geschweige denn einen Modellbildungsprozess. Wenn der Geschlechtseffekt vorliegt, ist eine natürliche Folgefrage, ob Wechselwirkungen zwischen dem Geschlecht und anderen Variablen im Modell bestehen. Wenn kein Sex-Effekt und keine Interaktionen vorhanden sind, sollte Sex aus dem Modell entfernt werden.

(3) Wenn Sex für diese Autoren als nicht interessant angesehen wird, wozu sollte er dann überhaupt in das Modell aufgenommen werden, ohne seine Auswirkungen zu überprüfen? Erhält die Einbeziehung einer solchen kategorialen Variablen (und die Kosten für einen Freiheitsgrad für die feste Wirkung des Geschlechts) etwas für ihren besonderen Zweck, wenn eine sexuelle Wirkung vorliegt (meine begrenzte Erfahrung sagt im Wesentlichen nein)?

Bluepole
quelle
Was soll ich sagen, alle Ihre Punkte sind gültig, so dass es möglich ist, dass die Autoren der fraglichen Artikel das Falsche tun. Ohne mehr Kontext ist es unmöglich, etwas Konkretes zu sagen.
mpiktas

Antworten:

4

Ich denke nicht, dass (1) einen Unterschied macht. Die Idee ist, die Auswirkungen des Geschlechts von der Reaktion und den anderen Prädiktoren zu trennen. Es spielt keine Rolle, ob Sie 0, 1 (Behandlungskontraste) oder 1, -1 (Summe zu Null-Kontrasten) codieren, da die Modelle dieselbe "Menge" an Informationen darstellen, die dann entfernt werden. Hier ist ein Beispiel in R:

set.seed(1)
dat <- data.frame(Size = c(rnorm(20, 180, sd = 5), 
                           rnorm(20, 170, sd = 5)),
                  Sex = gl(2,20,labels = c("Male","Female")))

options(contrasts = c("contr.treatment", "contr.poly"))
r1 <- resid(m1 <- lm(Size ~ Sex, data = dat))
options(contrasts = c("contr.sum", "contr.poly"))
r2 <- resid(m2 <- lm(Size ~ Sex, data = dat))
options(contrasts = c("contr.treatment", "contr.poly"))

Von diesen beiden Modellen sind die Residuen gleich und es sind diese Informationen, die man dann in das nachfolgende Modell aufnehmen würde (plus dasselbe, was den Sex-Effekt von den anderen Kovariaten entfernt):

> all.equal(r1, r2)
[1] TRUE

Ich stimme (2) zu, aber bei (3), wenn Sex für die Forscher kein Interesse ist, möchten sie möglicherweise immer noch die Auswirkungen auf Sex kontrollieren, sodass mein Nullmodell Sex enthält und ich Alternativen mit zusätzlichen Kovariaten teste plus Sex. Ihr Standpunkt zu Interaktionen und zum Testen der Auswirkungen der nicht interessanten Variablen ist eine wichtige und gültige Beobachtung.

Gavin Simpson
quelle
2

Es ist wahr, dass die Wahl der Codierungsmethode Einfluss darauf hat, wie Sie die Modellkoeffizienten interpretieren. Nach meiner Erfahrung (und mir ist klar, dass dies von Ihrem Fachgebiet abhängen kann) ist die Dummy-Codierung so weit verbreitet, dass die Leute kein großes Problem damit haben.

Wenn in diesem Beispiel männlich = 0 und weiblich = 1 ist, ist der Achsenabschnitt im Grunde die mittlere Antwort für Männer, und der Geschlechtskoeffizient ist die Auswirkung auf die Antwort aufgrund der weiblichen Zugehörigkeit (der "weibliche Effekt"). Die Dinge werden komplizierter, wenn Sie sich mit kategorialen Variablen mit mehr als zwei Ebenen befassen, aber das Interpretationsschema erstreckt sich auf natürliche Weise.

Dies bedeutet letztendlich, dass Sie darauf achten sollten, dass alle wesentlichen Schlussfolgerungen, die Sie aus der Analyse ziehen, nicht von der verwendeten Codierungsmethode abhängen.

Hong Ooi
quelle
1

Denken Sie jedoch daran, dass dieser Fehler durch Hinzufügen zusätzlicher Faktoren verringert wird. Auch wenn das Geschlecht in Ihrem Modell unbedeutend ist, kann es in der Studie dennoch nützlich sein. Die Signifikanz kann in jedem Faktor gefunden werden, wenn die Stichprobengröße groß genug ist. Umgekehrt ist ein signifikanter Effekt möglicherweise nicht testbar, wenn die Stichprobengröße nicht groß genug ist. Daher gute Modellbildung und Leistungsanalyse.


quelle
1

Es sieht so aus, als könnte ich Dr. Simpsons Antwort keinen langen Kommentar direkt hinzufügen. Entschuldigung, ich muss meine Antwort hier eintragen.

Ich freue mich sehr über Ihre Antwort, Dr. Simpson! Ich sollte meine Argumente ein wenig klarstellen. Was ich mit dem Teilgeschäft zu tun habe, ist kein theoretisches, sondern ein praktisches Problem. Angenommen, ein lineares Regressionsmodell hat die folgende Form

y = a + b * Geschlecht + andere feste Effekte + Residuen

Ich stimme voll und ganz zu, dass wir aus theoretischer Sicht unabhängig davon, wie wir die Geschlechtsvariable quantifizieren, dieselben Residuen haben würden. Auch wenn ich die Themen mit einigen verrückten Zahlen wie männlich = 10,7 und weiblich = 53.65, Code würde ich immer noch die gleichen Reste wie erhalten r1und r2in Ihrem Beispiel. In diesen Papieren geht es jedoch nicht um die Residuen. Stattdessen liegt der Fokus auf der Interpretation des Abschnitts aund anderer fester Effekte im obigen Modell, und dies kann zu Problemen beim Partialling führen. Vor diesem Hintergrund scheint die Kodierung des Geschlechts eine große Konsequenz für die Interpretation aller anderen Effekte im obigen Modell zu haben. Mit Dummy-Codierung (options(contrasts = c("contr.treatment", "contr.poly"))In R) sollten alle anderen Effekte außer 'b' so interpretiert werden, dass sie mit der Geschlechtsgruppe mit dem Code "0" (Männer) assoziiert sind. Bei der Effektcodierung ( options(contrasts = c("contr.sum", "contr.poly"))in R) sind alle anderen Effekte außer bden durchschnittlichen Effekten für die gesamte Bevölkerung, unabhängig vom Geschlecht.

Anhand Ihres Beispiels vereinfacht sich das Modell zu

y = a + b * Geschlecht + Residuen.

Das Problem lässt sich anhand der folgenden Schätzung des Abschnitts deutlich erkennen a:

> summary(m1)

Call: lm(formula = Size ~ Sex, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 180.9526     0.9979 181.332  < 2e-16 ***

> summary(m2)

Call: lm(formula = Size ~ Sex, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 175.4601     0.7056 248.659  < 2e-16 ***

Schließlich muss ich wohl zustimmen, dass mein ursprüngliches Argument (3) möglicherweise nicht gültig ist. Setzen Sie Ihr Beispiel fort,

> options(contrasts = c("contr.sum", "contr.poly"))
> m0 <- lm(Size ~ 1, data = dat)
> summary(m0)

Call: lm(formula = Size ~ 1, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  175.460      1.122   156.4   <2e-16 ***

Es scheint, dass die Einbeziehung von Sex in das Modell die Effektschätzung nicht ändert, aber die statistische Aussagekraft erhöht, da durch den Sex-Effekt mehr Variabilität in den Daten berücksichtigt wird. Meine vorherige Illusion in Argument (3) stammt möglicherweise aus einem Datensatz mit einer riesigen Stichprobengröße, bei dem sich das Hinzufügen von Sex zum Modell für die Bedeutung anderer Effekte nicht wesentlich geändert hat.

Bei der konventionellen Analyse des ausgeglichenen ANOVA-Typs hat ein Faktor zwischen Subjekten wie Geschlecht aufgrund der orthogonalen Aufteilung der Varianzen keine Auswirkungen auf die Effekte, die nicht mit dem Faktor zusammenhängen.

Bluepole
quelle
2
Vielleicht haben wir unterschiedliche Einstellungen zum Abschied? In meinen Augen würde es i) e1 <- Rest (lm (y ~ Geschlecht)), ii) e2 <- Rest (lm (X ~ Geschlecht)) und schließlich iii) lm (e1 ~ e2) beinhalten. i) Residuen y in Bezug auf das Geschlecht, ii) Residuen der anderen Kovariaten (X) in Bezug auf das Geschlecht, iii) Anpassung an die partielle Regression. In diesem Fall spielt es keine Rolle, wie man Sex codiert. Oben interessieren uns weder die Wirkung des Geschlechts noch die Interpretation der Koeffizienten. Wenn wir Modelle erstellen, dh Sex als Null steuern, ist es jedoch eine wichtige Überlegung, wie wir das Modell parametrisieren .
Gavin Simpson