Interpretation von Betas bei mehreren kategorialen Variablen

18

Ich verstehe das Konzept, dass der Mittelwert ist, wenn die kategoriale Variable gleich 0 ist (oder die Referenzgruppe ist), was die Endinterpretation ergibt, dass der Regressionskoeffizient die Differenz im Mittel der beiden Kategorien ist. Selbst bei> 2 Kategorien würde ich annehmen, dass jede den Unterschied zwischen dem Mittelwert dieser Kategorie und der Referenz erklärt. ββ^0β^

Was aber, wenn mehr Variablen in das multivariable Modell aufgenommen werden? Was bedeutet nun der Achsenabschnitt, da es keinen Sinn macht, als Mittelwert für die Referenz zweier kategorialer Variablen zu gelten? Ein Beispiel wäre, wenn Geschlecht (M (ref) / F) und Rasse (weiß (ref) / schwarz) beide in einem Modell wären. Ist der der Mittelwert nur für weiße Männer? Wie interpretiert man andere Möglichkeiten?β^0

Als separate Anmerkung: Dienen Kontrastangaben als Methode zur Untersuchung der Effektmodifikation? Oder nur um den Effekt ( ) auf verschiedenen Ebenen zu sehen?β^

Renee
quelle
In der Terminologie bedeutet "multivariat" mehrere Antwortvariablen und nicht mehrere Prädiktorvariablen (siehe hier ). Außerdem folge ich Ihrer letzten Frage nicht.
gung - Wiedereinsetzung von Monica
Danke für diese Klarstellung. Die richtige Sprache zu finden ist mir wichtig! Ich vermute, ich kann einfach nicht herausfinden, warum überhaupt Kontrastaussagen verwendet werden, da man immer nur die Referenzvariable auf die setzen könnte, gegen die man kontrastiert.
Renee
1
Ich denke, Sie könnten das Modell mit verschiedenen Referenzwerten einfach weiter anpassen. Ich bin mir nicht sicher, ob das bequemer ist. Mit Kontrasten können Sie auch einen Satz orthogonaler Kontraste oder einen theoretisch implizierten Kontrast (A gegen Kombination von B und C) zum Testen angeben.
gung - Wiedereinsetzung von Monica

Antworten:

19

Sie haben Recht mit der Interpretation der Betas, wenn es eine einzige kategoriale Variable mit Stufen gibt. Wenn es mehrere kategoriale Variablen gab (und es keinen Interaktionsterm gab), ist der Achsenabschnitt ( ) der Mittelwert der Gruppe, die den Referenzwert für beide (alle) kategorialen Variablen darstellt. Betrachten Sie in Ihrem Beispielszenario den Fall, in dem keine Interaktion stattfindet. Die Betas lauten dann: kβ 0β^0

  • β^0 : der Mittelwert der weißen Männchen
  • β^Female : Der Unterschied zwischen dem Mittelwert der Frauen und dem Mittelwert der Männer
  • β^Black : Der Unterschied zwischen dem Mittelwert der Schwarzen und dem Mittelwert der Weißen

Wir können uns dies auch in Bezug auf die Berechnung der verschiedenen Gruppenmittel vorstellen:

x¯White Males=β^0x¯White Females=β^0+β^Femalex¯Black Males=β^0+β^Blackx¯Black Females=β^0+β^Female+β^Black

Wenn Sie einen Interaktionsbegriff hatten, wird dieser am Ende der Gleichung für schwarze Frauen hinzugefügt. (Die Interpretation eines solchen Interaktionsbegriffs ist ziemlich kompliziert, aber ich gehe hier darauf ein: Interpretation des Interaktionsbegriffs .)


Update : Um meine Punkte zu verdeutlichen, betrachten wir ein in Dosen kodiertes Beispiel R.

d = data.frame(Sex  =factor(rep(c("Male","Female"),times=2), levels=c("Male","Female")),
               Race =factor(rep(c("White","Black"),each=2),  levels=c("White","Black")),
               y    =c(1, 3, 5, 7))
d
#      Sex  Race y
# 1   Male White 1
# 2 Female White 3
# 3   Male Black 5
# 4 Female Black 7

Bildbeschreibung hier eingeben

Die Mittelwerte yfür diese kategorialen Variablen sind:

aggregate(y~Sex,  d, mean)
#      Sex y
# 1   Male 3
# 2 Female 5
## i.e., the difference is 2
aggregate(y~Race, d, mean)
#    Race y
# 1 White 2
# 2 Black 6
## i.e., the difference is 4

Wir können die Unterschiede zwischen diesen Mitteln mit den Koeffizienten eines angepassten Modells vergleichen:

summary(lm(y~Sex+Race, d))
# ...
# Coefficients:
#             Estimate Std. Error  t value Pr(>|t|)    
# (Intercept)        1   3.85e-16 2.60e+15  2.4e-16 ***
# SexFemale          2   4.44e-16 4.50e+15  < 2e-16 ***
# RaceBlack          4   4.44e-16 9.01e+15  < 2e-16 ***
# ...
# Warning message:
#   In summary.lm(lm(y ~ Sex + Race, d)) :
#   essentially perfect fit: summary may be unreliable

An dieser Situation ist zu erkennen, dass wir ohne einen Interaktionsterm von parallelen Linien ausgehen. Somit ist die Estimatefür die (Intercept)der Mittelwert der weißen Männer. Das EstimateFor SexFemaleist der Unterschied zwischen dem Mittelwert der Frauen und dem Mittelwert der Männer. Das EstimateFor RaceBlackist der Unterschied zwischen dem Mittelwert der Schwarzen und dem Mittelwert der Weißen. Auch hier gilt: Da ein Modell ohne Interaktionsterm davon ausgeht, dass die Effekte ausschließlich additiv sind (die Linien sind streng parallel), ist der Mittelwert der schwarzen Frauen der Mittelwert der weißen Männer zuzüglich der Differenz zwischen dem Mittelwert der Frauen und dem Mittelwert der Männer zuzüglich der Unterschied zwischen dem Mittelwert der Schwarzen und dem Mittelwert der Weißen.

gung - Wiedereinsetzung von Monica
quelle
Vielen Dank! Sehr klar und hilfreich. Am Ende erwähnen Sie Interaktionsbegriffe. Wenn man einen Interaktionsbegriff macht, wie verändert dies die Betas (dh die neuen Betas aus dem Interaktionsbegriffsmodell)? Ich weiß, dass der p-Wert für den Interaktionsterm wichtig ist, aber hat der Interaktionsterm Beta eine aussagekräftige Interpretation? Nochmals vielen Dank für Ihre Hilfe!
Renee
1
Im Falle einer Interaktion beziehen sich die "Haupteffekt" -Betas nur auf die Unterschiede innerhalb des Referenzniveaus des anderen Faktors. Zum Beispiel ist nur der Unterschied zwischen und . ˉ x WhiteMale ˉ x WhiteFemaleβ^Femalex¯White Malex¯White Female
gung - Wiedereinsetzung von Monica
Macht Sinn. Vielen Dank! & Wird es vom Modell ohne Interaktionsterm geändert, weil der Interaktionsterm den Haupteffekt verbessert? Das heißt, wenn es keine Wechselwirkung gibt, wäre der Hauptwirkungsbegriff theoretisch der gleiche?
Renee
Wenn der Interaktionseffekt nicht nur in der Grundgesamtheit, sondern auch in Ihrer Stichprobe exakt 0 (bis zu unendlich vielen Dezimalstellen) wäre, wäre der Haupteffekt in einem Modell ohne oder mit dem Interaktionsterm derselbe.
gung - Wiedereinsetzung von Monica
1
@ hans0l0, das wäre besser als eine neue Frage als hier in Kommentaren vergrabene Informationen; Sie könnten für den Kontext darauf verlinken. Kurz gesagt, es ist der Mittelwert der Bezugspegel, wenn alle stetigen Variablen = 0 sind.
gung - Wiedereinsetzung von Monica
6

Wie Sie richtig ausgeführt haben, ist im Fall einer einzelnen kategorialen Variablen (mit möglicherweise mehr als 2 Ebenen) tatsächlich der Mittelwert der Referenz, und die andere ist der Unterschied zwischen Mittelwert des Niveaus der Kategorie und des Mittelwerts der Referenz. ββ^0β^

Wenn wir Ihr Beispiel ein wenig erweitern, um der Rassenkategorie eine dritte Stufe hinzuzufügen (sagen wir asiatisch ) und Weiß als Referenz wählen, dann hätten Sie:

  • β^0=x¯White
  • β^Black=x¯Blackx¯White
  • β^Asian=x¯Asianx¯White

In diesem Fall ist die Interpretation von einfach und es ist einfach, den Mittelwert für jedes Level der Kategorie zu finden. Beispielsweise:β^

  • x¯Asian=β^Asian+β^0

Leider ist bei mehreren kategorialen Variablen die korrekte Interpretation des Abschnitts nicht mehr so ​​klar (siehe Hinweis am Ende). Wenn es n Kategorien mit jeweils mehreren Ebenen und einer Bezugsebene gibt (z. B. Weiß und Männlich in Ihrem Beispiel), lautet die allgemeine Form für den Achsenabschnitt:

β^0=i=1nx¯reference,i(n1)x¯,
wobei
x¯reference,i is the mean of the reference level of the i-th categorical variable,
x¯ is the mean of the whole data set

Das andere ist dasselbe wie bei einer einzelnen Kategorie: es ist die Differenz zwischen dem Mittelwert dieses Niveaus der Kategorie und dem Mittelwert des Referenzniveaus derselben Kategorie.β^

Wenn wir zu Ihrem Beispiel zurückkehren, erhalten wir:

  • β^0=x¯White+x¯Malex¯
  • β^Black=x¯Blackx¯White
  • β^Asian=x¯Asianx¯White
  • β^Female=x¯Femalex¯Male

Sie werden feststellen, dass der Mittelwert der Kreuzkategorien (z. B. weiße Männer ) in keiner der . Tatsächlich können Sie diese Mittelwerte nicht genau aus den Ergebnissen dieser Art von Regression berechnen .β^

Der Grund dafür ist, dass die Anzahl der Prädiktorvariablen (dh ) kleiner ist als die Anzahl der Kreuzkategorien (solange Sie mehr als eine Kategorie haben), sodass eine perfekte Anpassung nicht immer möglich ist. Wenn wir zu Ihrem Beispiel zurückkehren, ist die Anzahl der Prädiktoren 4 (dh und ), während die Anzahl der Kreuzkategorien 6 beträgt.β^β^0, β^Black, β^Asianβ^Female

Numerisches Beispiel

Lassen Sie mich von @Gung ein numerisches Beispiel ausleihen:

d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
    Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
    y    =c(0, 3, 7, 8, 9, 10))
d

#      Sex  Race  y
# 1   Male White  0
# 2 Female White  3
# 3   Male Black  7
# 4 Female Black  8
# 5   Male Asian  9
# 6 Female Asian 10

In diesem Fall werden für die Berechnung des Durchschnittswerte verwendet :β^

aggregate(y~1,  d, mean)

#          y
# 1 6.166667

aggregate(y~Sex,  d, mean)

#      Sex        y
# 1   Male 5.333333
# 2 Female 7.000000

aggregate(y~Race, d, mean)

#    Race   y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5

Wir können diese Zahlen mit den Ergebnissen der Regression vergleichen:

summary(lm(y~Sex+Race, d))

# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)   0.6667     0.6667   1.000   0.4226
# SexFemale     1.6667     0.6667   2.500   0.1296
# RaceBlack     6.0000     0.8165   7.348   0.0180
# RaceAsian     8.0000     0.8165   9.798   0.0103

Wie Sie sehen können, die aus der Regression geschätzten Werte alle mit den oben angegebenen Formeln überein. Zum Beispiel ist gegeben durch: Welche gibt:β^β^0

β^0=x¯White+x¯Malex¯
1.5 + 5.333333 - 6.166667
# 0.66666

Hinweis zur Wahl des Kontrasts

Als letzte Anmerkung zu diesem Thema beziehen sich alle oben diskutierten Ergebnisse auf kategoriale Regressionen unter Verwendung der Kontrastbehandlung (die Standardkontrastart in R). Es gibt verschiedene Arten von Kontrast, die verwendet werden könnten (insbesondere Helmert und Summe) und die die Interpretation der verschiedenen . Dies würde jedoch die endgültigen Vorhersagen aus den Regressionen nicht ändern (z. B. ist die Vorhersage für weiße Männer immer dieselbe, unabhängig davon, welche Art von Kontrast Sie verwenden).β^

Mein persönlicher Favorit ist die Kontrastsumme, da ich der Meinung bin, dass sich die Interpretation von besser verallgemeinern lässt, wenn es mehrere Kategorien gibt. Für diese Art von Kontrast gibt es keinen Referenzpegel, oder vielmehr ist die Referenz der Mittelwert der gesamten Stichprobe, und Sie haben die folgenden :β^contr.sumβ^contr.sum

  • β^0contr.sum=x¯
  • β^icontr.sum=x¯ix¯

Wenn wir zum vorherigen Beispiel zurückkehren, hätten Sie:

  • β^0contr.sum=x¯
  • β^Whitecontr.sum=x¯Whitex¯
  • β^BleinckcOntr.sum=x¯Bleinck-x¯
  • β^EINsicheinncOntr.sum=x¯EINsicheinn-x¯
  • β^MeinlecOntr.sum=x¯Meinle-x¯
  • β^FemeinlecOntr.sum=x¯Femeinle-x¯

Sie werden feststellen, dass die Werte für nicht mehr 0 sind , da es sich bei Weiß und Männlich nicht mehr um Referenzwerte handelt. Die Tatsache, dass dies 0 ist, ist spezifisch für die Kontrastbehandlung.β^cOntr.sum

GL
quelle