Ich verstehe das Konzept, dass der Mittelwert ist, wenn die kategoriale Variable gleich 0 ist (oder die Referenzgruppe ist), was die Endinterpretation ergibt, dass der Regressionskoeffizient die Differenz im Mittel der beiden Kategorien ist. Selbst bei> 2 Kategorien würde ich annehmen, dass jede den Unterschied zwischen dem Mittelwert dieser Kategorie und der Referenz erklärt. β
Was aber, wenn mehr Variablen in das multivariable Modell aufgenommen werden? Was bedeutet nun der Achsenabschnitt, da es keinen Sinn macht, als Mittelwert für die Referenz zweier kategorialer Variablen zu gelten? Ein Beispiel wäre, wenn Geschlecht (M (ref) / F) und Rasse (weiß (ref) / schwarz) beide in einem Modell wären. Ist der der Mittelwert nur für weiße Männer? Wie interpretiert man andere Möglichkeiten?
Als separate Anmerkung: Dienen Kontrastangaben als Methode zur Untersuchung der Effektmodifikation? Oder nur um den Effekt ( ) auf verschiedenen Ebenen zu sehen?
Antworten:
Sie haben Recht mit der Interpretation der Betas, wenn es eine einzige kategoriale Variable mit Stufen gibt. Wenn es mehrere kategoriale Variablen gab (und es keinen Interaktionsterm gab), ist der Achsenabschnitt ( ) der Mittelwert der Gruppe, die den Referenzwert für beide (alle) kategorialen Variablen darstellt. Betrachten Sie in Ihrem Beispielszenario den Fall, in dem keine Interaktion stattfindet. Die Betas lauten dann:k β 0β^0
Wir können uns dies auch in Bezug auf die Berechnung der verschiedenen Gruppenmittel vorstellen:
x¯W h i t e M a l e s x¯W h i t e F e m a l e s x¯B l a c k M a l e s x¯B l a c k F e m a l e s = β^0= β^0+ β^F e m a l e= β^0+ β^B l ac k= β^0+β^F e m al e+β^B l a c k
Wenn Sie einen Interaktionsbegriff hatten, wird dieser am Ende der Gleichung für schwarze Frauen hinzugefügt. (Die Interpretation eines solchen Interaktionsbegriffs ist ziemlich kompliziert, aber ich gehe hier darauf ein: Interpretation des Interaktionsbegriffs .)
Update : Um meine Punkte zu verdeutlichen, betrachten wir ein in Dosen kodiertes Beispiel
R
.Die Mittelwerte
y
für diese kategorialen Variablen sind:Wir können die Unterschiede zwischen diesen Mitteln mit den Koeffizienten eines angepassten Modells vergleichen:
An dieser Situation ist zu erkennen, dass wir ohne einen Interaktionsterm von parallelen Linien ausgehen. Somit ist die
Estimate
für die(Intercept)
der Mittelwert der weißen Männer. DasEstimate
ForSexFemale
ist der Unterschied zwischen dem Mittelwert der Frauen und dem Mittelwert der Männer. DasEstimate
ForRaceBlack
ist der Unterschied zwischen dem Mittelwert der Schwarzen und dem Mittelwert der Weißen. Auch hier gilt: Da ein Modell ohne Interaktionsterm davon ausgeht, dass die Effekte ausschließlich additiv sind (die Linien sind streng parallel), ist der Mittelwert der schwarzen Frauen der Mittelwert der weißen Männer zuzüglich der Differenz zwischen dem Mittelwert der Frauen und dem Mittelwert der Männer zuzüglich der Unterschied zwischen dem Mittelwert der Schwarzen und dem Mittelwert der Weißen.quelle
Wie Sie richtig ausgeführt haben, ist im Fall einer einzelnen kategorialen Variablen (mit möglicherweise mehr als 2 Ebenen) tatsächlich der Mittelwert der Referenz, und die andere ist der Unterschied zwischen Mittelwert des Niveaus der Kategorie und des Mittelwerts der Referenz. ββ^0 β^
Wenn wir Ihr Beispiel ein wenig erweitern, um der Rassenkategorie eine dritte Stufe hinzuzufügen (sagen wir asiatisch ) und Weiß als Referenz wählen, dann hätten Sie:
In diesem Fall ist die Interpretation von einfach und es ist einfach, den Mittelwert für jedes Level der Kategorie zu finden. Beispielsweise:β^
Leider ist bei mehreren kategorialen Variablen die korrekte Interpretation des Abschnitts nicht mehr so klar (siehe Hinweis am Ende). Wenn es n Kategorien mit jeweils mehreren Ebenen und einer Bezugsebene gibt (z. B. Weiß und Männlich in Ihrem Beispiel), lautet die allgemeine Form für den Achsenabschnitt:
Das andere ist dasselbe wie bei einer einzelnen Kategorie: es ist die Differenz zwischen dem Mittelwert dieses Niveaus der Kategorie und dem Mittelwert des Referenzniveaus derselben Kategorie.β^
Wenn wir zu Ihrem Beispiel zurückkehren, erhalten wir:
Sie werden feststellen, dass der Mittelwert der Kreuzkategorien (z. B. weiße Männer ) in keiner der . Tatsächlich können Sie diese Mittelwerte nicht genau aus den Ergebnissen dieser Art von Regression berechnen .β^
Der Grund dafür ist, dass die Anzahl der Prädiktorvariablen (dh ) kleiner ist als die Anzahl der Kreuzkategorien (solange Sie mehr als eine Kategorie haben), sodass eine perfekte Anpassung nicht immer möglich ist. Wenn wir zu Ihrem Beispiel zurückkehren, ist die Anzahl der Prädiktoren 4 (dh und ), während die Anzahl der Kreuzkategorien 6 beträgt.β^ β^0, β ^B l a c k, β ^A s i a n β^Fe m a l e
Numerisches Beispiel
Lassen Sie mich von @Gung ein numerisches Beispiel ausleihen:
In diesem Fall werden für die Berechnung des Durchschnittswerte verwendet :β^
Wir können diese Zahlen mit den Ergebnissen der Regression vergleichen:
Wie Sie sehen können, die aus der Regression geschätzten Werte alle mit den oben angegebenen Formeln überein. Zum Beispiel ist gegeben durch: Welche gibt:β^ β^0
Hinweis zur Wahl des Kontrasts
Als letzte Anmerkung zu diesem Thema beziehen sich alle oben diskutierten Ergebnisse auf kategoriale Regressionen unter Verwendung der Kontrastbehandlung (die Standardkontrastart in R). Es gibt verschiedene Arten von Kontrast, die verwendet werden könnten (insbesondere Helmert und Summe) und die die Interpretation der verschiedenen . Dies würde jedoch die endgültigen Vorhersagen aus den Regressionen nicht ändern (z. B. ist die Vorhersage für weiße Männer immer dieselbe, unabhängig davon, welche Art von Kontrast Sie verwenden).β^
Mein persönlicher Favorit ist die Kontrastsumme, da ich der Meinung bin, dass sich die Interpretation von besser verallgemeinern lässt, wenn es mehrere Kategorien gibt. Für diese Art von Kontrast gibt es keinen Referenzpegel, oder vielmehr ist die Referenz der Mittelwert der gesamten Stichprobe, und Sie haben die folgenden :β^c o n t r . s u m β^c o n t r . s u m
Wenn wir zum vorherigen Beispiel zurückkehren, hätten Sie:
Sie werden feststellen, dass die Werte für nicht mehr 0 sind , da es sich bei Weiß und Männlich nicht mehr um Referenzwerte handelt. Die Tatsache, dass dies 0 ist, ist spezifisch für die Kontrastbehandlung.β^c o n t r . s u m
quelle