Probleme mit Dummy-Variablenfallen

10

Ich führe eine große OLS-Regression durch, bei der alle unabhängigen Variablen (ca. 400) Dummy-Variablen sind. Wenn alle enthalten sind, gibt es eine perfekte Multikollinearität (die Dummy-Variablenfalle), daher muss ich eine der Variablen weglassen, bevor ich die Regression ausführe.

Meine erste Frage ist, welche Variable soll weggelassen werden? Ich habe gelesen, dass es besser ist, eine Variable wegzulassen, die in vielen Beobachtungen vorhanden ist, als eine, die nur in wenigen vorhanden ist (z. B. wenn fast alle Beobachtungen "männlich" oder "weiblich" sind und nur wenige "unbekannt" sind ", entweder" männlich "oder" weiblich "weglassen). Ist das gerechtfertigt?

Nachdem ich die Regression mit einer ausgelassenen Variablen ausgeführt habe, kann ich den Koeffizientenwert der ausgelassenen Variablen schätzen, da ich weiß, dass der Gesamtmittelwert aller meiner unabhängigen Variablen 0 sein sollte. Daher verwende ich diese Tatsache, um die Koeffizientenwerte für alle Variablen zu verschieben eingeschlossene Variablen und erhalten eine Schätzung für die ausgelassene Variable. Meine nächste Frage ist, ob es eine ähnliche Technik gibt, mit der der Standardfehler für den Koeffizientenwert der ausgelassenen Variablen geschätzt werden kann. So wie es ist, muss ich die Regression ohne eine andere Variable (und einschließlich der Variablen, die ich in der ersten Regression weggelassen hatte) erneut ausführen, um eine Standardfehlerschätzung für den Koeffizienten der ursprünglich ausgelassenen Variablen zu erhalten.

Schließlich stelle ich fest, dass die Koeffizientenschätzungen, die ich (nach der Neuzentrierung um Null) erhalte, geringfügig variieren, je nachdem, welche Variable weggelassen wird. Wäre es theoretisch besser, mehrere Regressionen durchzuführen, bei denen jeweils eine andere Variable weggelassen wird, und dann die Koeffizientenschätzungen aus allen Regressionen zu mitteln?

categorical-data James Davison
quelle

Können Sie klarstellen, was Sie unter "Der Gesamtmittelwert aller meiner unabhängigen Variablen sollte 0 sein" verstehen und woher Sie das wissen?

Onestop

Grundsätzlich möchte ich alle Variablen relativ zum Durchschnitt (dem Durchschnitt aller Variablen) bewerten. Die Koeffizienten aus der Regression beziehen sich auf die ausgelassene Variable. Wenn ich also den Mittelwert aller Koeffizienten (einschließlich des Koeffizienten der ausgelassenen Variablen von 0) von jedem Koeffizientenwert subtrahiere, werden die angepassten Werte jetzt durchschnittlich 0, und jeder Koeffizientenwert kann als Abstand vom Durchschnitt angesehen werden.

James Davison

8

Sie sollten die "gleichen" Schätzungen erhalten, unabhängig davon, welche Variable Sie weglassen. Die Koeffizienten können unterschiedlich sein, aber die Schätzungen bestimmter Größen oder Erwartungen sollten für alle Modelle gleich sein.

In einem einfachen Fall sei für Männer und 0 für Frauen. Dann haben wir das Modell: Nun sei für Frauen. Dann Der erwartete Wert von für Frauen ist und auch . Für Männer ist es $x_i=1$

\begin{aligned} E [y_{i} ∣ x_{i}] & = x_{i} E [y_{i} ∣ x_{i} = 1] + (1 - x_{i}) E [y_{i} ∣ x_{i} = 0] \\ = E [y_{i} ∣ x_{i} = 0] + [E [y_{i} ∣ x_{i} = 1] - E [y_{i} ∣ x_{i} = 0]] x_{i} \\ = β_{0} + β_{1} x_{i} . \end{aligned}

$\begin{align*} E[y_i \mid x_i] &= x_iE[y_i \mid x_i = 1] + (1 - x_i)E[y_i \mid x_i = 0] \\ &= E[y_i \mid x_i=0] + \left[E[y_i \mid x_i= 1] - E[y_i \mid x_i=0]\right]x_i \\ &= \beta_0 + \beta_1 x_i. \end{align*}$

z_{i} = 1

$z_i=1$

\begin{aligned} E [y_{i} ∣ z_{i}] & = z_{i} E [y_{i} ∣ z_{i} = 1] + (1 - z_{i}) E [y_{i} ∣ z_{i} = 0] \\ = E [y_{i} ∣ z_{i} = 0] + [E [y_{i} ∣ z_{i} = 1] - E [y_{i} ∣ z_{i} = 0]] z_{i} \\ = γ_{0} + γ_{1} z_{i} . \end{aligned}

$\begin{align*} E[y_i \mid z_i] &= z_iE[y_i \mid z_i = 1] + (1 - z_i)E[y_i \mid z_i = 0] \\ &= E[y_i \mid z_i=0] + \left[E[y_i \mid z_i= 1] - E[y_i \mid z_i=0]\right]z_i \\ &= \gamma_0 + \gamma_1 z_i . \end{align*}$

y

$y$

β_{0}

$\beta_0$

γ_{0} + γ_{1}

$\gamma_0 + \gamma_1$

β_{0} + β_{1}

$\beta_0 + \beta_1$ und .

γ_{0}

$\gamma_0$

Diese Ergebnisse zeigen, wie die Koeffizienten aus den beiden Modellen zusammenhängen. Zum Beispiel . Eine ähnliche Übung unter Verwendung Ihrer Daten sollte zeigen, dass die "unterschiedlichen" Koeffizienten, die Sie erhalten, nur Summen und Unterschiede voneinander sind. $\beta_1 = -\gamma_1$

Charlie
quelle

4

James, vor allem, warum Regressionsanalyse, aber nicht ANOVA (es gibt viele Spezialisten für diese Art von Analyse, die Ihnen helfen könnten)? Die Vorteile von ANOVA sind, dass Sie sich nur für Unterschiede in den Mitteln verschiedener Gruppen interessieren, die durch Kombinationen von Dummy-Variablen (eindeutige Kategorien oder Profile) beschrieben werden. Wenn Sie die Auswirkungen jeder von Ihnen eingeschlossenen kategorialen Variablen untersuchen, können Sie auch eine Regression ausführen.

Ich denke, die Art der Daten, die Sie hier haben, wird im Sinne einer Conjoint-Analyse beschrieben : Viele Attribute des Objekts (Geschlecht, Alter, Bildung usw.) haben jeweils mehrere Kategorien, sodass Sie nicht nur das größte Profil weglassen eine Dummy-Variable. Es ist üblich, die Kategorien innerhalb des Attributs wie folgt zu codieren (dieser Link kann nützlich sein, Sie führen hier wahrscheinlich keine Conjoint-Analyse durch, aber die Codierung ist ähnlich): Angenommen, Sie haben Kategorien (drei, wie Sie vorgeschlagen haben, männlich, weiblich , unbekannt) Dann werden die ersten beiden wie gewohnt codiert. Sie enthalten zwei Dummies (männlich, weiblich), die männlich), weiblich) und $n$ $(1, 0)$ $(0, 1)$ $(-1, -1)$ wenn unbekannt. Auf diese Weise werden die Ergebnisse tatsächlich um den Intercept-Term gelegt. Sie können jedoch auf andere Weise codieren, verlieren jedoch den genannten Interpretationsvorteil. Zusammenfassend lässt sich sagen, dass Sie eine Kategorie aus jeder Kategorie entfernen und Ihre Beobachtungen auf die beschriebene Weise codieren. Sie schließen auch den Intercept-Begriff ein.

Nun, die Kategorien des größten Profils wegzulassen, scheint gut für mich zu sein, obwohl es nicht so wichtig ist, zumindest ist es meiner Meinung nach nicht leer. Da Sie die Variablen auf spezifische Weise codieren, impliziert die gemeinsame statistische Signifikanz der eingeschlossenen Dummy-Variablen (beide männlich, weiblich, könnte durch den F-Test getestet werden) die Signifikanz der ausgelassenen.

Es kann vorkommen, dass sich die Ergebnisse geringfügig unterscheiden, aber kann es sein, dass die falsche Codierung dies beeinflusst?

Dmitrij Celov
quelle

Verzeihung, wenn mein Schreiben nicht klar ist, es ist Mitternacht in Litauen.

Dmitrij Celov

Warum ist dein Unbekannter (-1, -1) anstelle von (0,0)?

Siamii

1

Haben Sie, ohne die genaue Art Ihrer Analyse zu kennen, die Codierung von Effekten in Betracht gezogen? Auf diese Weise würde jede Variable den Effekt dieses Merkmals / Attributs gegenüber dem Gesamtmittelwert darstellen und nicht eine bestimmte ausgelassene Kategorie. Ich glaube, Sie werden immer noch einen Koeffizienten für eine der Kategorien / Attribute vermissen - den, dem Sie eine -1 zuweisen. Trotzdem würde ich bei so vielen Dummies denken, dass der große Mittelwert eine aussagekräftigere Vergleichsgruppe darstellt als jede bestimmte ausgelassene Kategorie.

whauser
quelle

Probleme mit Dummy-Variablenfallen

Antworten: