Ausgelassener variabler Bias in der logistischen Regression vs. ausgelassener variabler Bias in der gewöhnlichen Regression der kleinsten Quadrate

17

Ich habe eine Frage zu ausgelassenen variablen Verzerrungen in der logistischen und linearen Regression.

Angenommen, ich lasse einige Variablen aus einem linearen Regressionsmodell weg. Stellen Sie sich vor, dass diese ausgelassenen Variablen nicht mit den in meinem Modell enthaltenen Variablen korreliert sind. Diese ausgelassenen Variablen beeinflussen die Koeffizienten in meinem Modell nicht.

Aber in der logistischen Regression habe ich gerade gelernt, dass das nicht stimmt. Durch ausgelassene Variablen werden die Koeffizienten auf eingeschlossene Variablen verschoben, auch wenn die ausgelassenen Variablen nicht mit den eingeschlossenen Variablen korreliert sind. Ich habe eine Arbeit zu diesem Thema gefunden, aber ich kann weder Kopf noch Zahl daraus machen.

Hier ist das Papier und einige Powerpoint-Folien.

Die Tendenz ist anscheinend immer gegen Null. Kann mir jemand erklären, wie das geht?

ConfusedEconometricsUndergrad
quelle
Kennen Sie die Entstehung des logistischen Regressionsmodells aus einem zugrunde liegenden linearen Regressionsmodell mit "latenten Variablen"?
Alecos Papadopoulos
@AlecosPapadopoulos Ich für meinen Teil nicht. Was ist das Gericht?
Alexis
Es gibt andere Artikel, die dies diskutieren, aber der, mit dem Sie verlinkt sind, ist der einfachste, den ich kenne. Ich glaube also nicht, dass ich mich verbessern kann.
Maarten Buis
Sehr geehrter Herr Papadopoulos, ich habe die Idee der latenten Variablen gelesen. Warum fragst du?
ConfusedEconometricsUndergrad
@ Alexis Siehe z. B. diesen Beitrag unter stats.stackexchange.com/questions/80611/… und den Wikipedia-Artikel unter en.wikipedia.org/wiki/… . Dieser Ansatz verdeutlicht auch, dass es die Annahme ist, die wir für den Fehlerterm des zugrunde liegenden Modells treffen, die bestimmt, welches Modell wir auf der Ebene der Wahrscheinlichkeiten erhalten. Wenn wir als weiteres Beispiel annehmen, dass der zugrunde liegende Fehler einer Uniform folgt, erhalten wir das lineare Wahrscheinlichkeitsmodell (siehe stats.stackexchange.com/questions/81789
Alecos Papadopoulos,

Antworten:

20

Der Fall des "Attenuation Bias" kann klarer dargestellt werden, wenn wir das "Probit" -Modell untersuchen - aber das Ergebnis überträgt sich auch auf die logistische Regression.

Unter den bedingten Wahrscheinlichkeitsmodellen (logistische (logit), "probit" und "lineare Wahrscheinlichkeits" Modelle) können wir ein latentes (nicht beobachtbares) lineares Regressionsmodell postulieren :

y=Xβ+u

yXFU(u)=Φ(u)

yy

y=1ify>0,y=0ify0

y1

P(y=1X)=P(y>0X)=P(Xβ+u>0X)=P(u>XβX)=1Φ(Χβ)=Φ(Xβ)

uXXXβ

Xβ=b0+b1X1+b2X2

(1)P(y=1X)=Φ(b0+b1X1+b2X2)

X2X1

y=b0+b1X1+ϵ
X2X2N(μ2,σ22)

ϵ=u+b2X2N(b2μ2,1+b22σ22)

aufgrund der Schließung unter Hinzufügung der Normalverteilung (und der Annahme der Unabhängigkeit). Anwenden der gleichen Logik wie zuvor, hier haben wir

P(y=1X1)=P(y>0X1)=P(b0+b1X1+ϵ>0X1)=P(ϵ>b0b1X1X1)

ϵ

P(y=1X1)=1P(ϵb2μ21+b22σ22(b0+b2μ2)1+b22σ22b11+b22σ22X1X1)

(2)P(y=1X1)=Φ((b0+b2μ2)1+b22σ22+b11+b22σ22X1)

(1)(2)

b1

b^1pb11+b22σ22|b^1|<|b1|

Das ist das "Bias gegen Null" -Ergebnis.

ϵ

Alecos Papadopoulos
quelle