Schätzung von

14

Ich habe ein theoretisches Wirtschaftsmodell, das wie folgt lautet:

y=a+b1x1+b2x2+b3x3+u

Die Theorie besagt also, dass es x1 , x2 und x3 Faktoren gibt, um abzuschätzen y.

Jetzt habe ich die realen Daten und muss b1 , b2 , schätzen b3. Das Problem ist, dass der reale Datensatz nur Daten für x1 und x2 . Es liegen keine Daten für x3 . Das Modell, auf das ich passen kann, ist also:

y=a+b1x1+b2x2+u
  • Ist es in Ordnung, dieses Modell zu schätzen?
  • Verliere ich irgendetwas, was ich einschätze?
  • Wenn ich b1 , schätze b2, wohin geht dann der Term b3x3 ?
  • Ist es durch Fehler Begriff entfallen ?u

Und wir möchten annehmen, dass nicht mit x 1 und x 2 korreliert .x3x1x2

Renathie
quelle
Können Sie Details zu Ihrem Datensatz angeben, ich meine, zu Ihrer abhängigen Variablen und zu den unabhängigen Variablen x 1 und x 2 ? yx1x2
Vara
Betrachten

Antworten:

20

Das Problem, über das Sie sich Sorgen machen müssen, heißt Endogenität . Insbesondere hängt es davon ab, ob in der Population mit x 1 oder x 2 korreliert . Wenn ja, so wird die zugehörige b j wird s vorgespannt werden. Das liegt daran, dass OLS- Regressionsmethoden die Residuen u i dazu zwingen , nicht mit Ihren Kovariaten x j s korreliert zu sein . Allerdings sind Ihre Reste einiger irreduziblen Zufälligkeit zusammengesetzt, ε i , und der unbeobachteten (aber relevant) Variable, x 3 , die durch Festlegungx3x1x2bjuixjεix3wird mit korrelierten und / oder x 2 . Wenn andererseits sowohl x 1 als auch x 2 nicht mit x 3 in der Grundgesamtheit korreliert sind , werden ihre bs dadurch nicht voreingenommen (sie können natürlich auch von etwas anderem voreingenommen sein). Eine Möglichkeit, wie Ökonomen versuchen, mit diesem Problem umzugehen, ist die Verwendung instrumenteller Variablen . x1x2 x1x2x3b

Der Klarheit halber habe ich in R eine schnelle Simulation geschrieben, die zeigt, dass die Stichprobenverteilung von unabhängig vom wahren Wert von β 2 ist , wenn sie nicht mit x 3 korreliert ist . Im zweiten Durchgang ist jedoch zu beachten, dass x 3 nicht mit x 1 , sondern nicht mit x 2 korreliert ist . Nicht zufällig ist b 1 unverzerrt, aber b 2 ist vorgespannt. b2β2x3x3x1x2b1b2

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64
gung - Wiedereinsetzung von Monica
quelle
Können Sie uns etwas mehr erklären - was passiert, wenn wir davon ausgehen, dass x3 nicht mit $ x_1 und x2 korreliert? Was passiert dann, wenn ich y = a + b1x1 + b2x2 + u schätze?
Renathy
1
wird in beiden Fällen in die Residuen einbezogen, aberwennes in der Populationnicht korreliert ist, werden Ihre anderen b s nicht durch das Fehlen von x 3 voreingenommen sein, aber wenn es nicht unkorreliert ist, werden sie es sein. b3x3bx3
gung - Wiedereinsetzung von Monica
Um dies klarer auszudrücken: Wenn weder mit x 1 noch mit x 2 korreliert , sind Sie in Ordnung. x3x1x2
gung - Reinstate Monica
Ich diskutiere die Kehrseite dieses Problems in meiner Antwort hier: Ändert das Hinzufügen weiterer Variablen zu einer multivariablen Regression die Koeffizienten vorhandener Variablen?
gung - Wiedereinsetzung von Monica
3

Stellen wir uns das geometrisch vor. Denken Sie an einen "Ball", die Oberfläche eines Balls. Es wird beschrieben als . Wenn Sie nun die Werte für x 2 , y 2 , z 2 und r 2 haben , können Sie die Koeffizienten "a", "b" und "c" bestimmen. (Man könnte es Ellipsoid nennen, aber einen Ball zu nennen ist einfacher.)r2=ax2+by2+cz2+ϵx2y2z2r2

Wenn Sie nur die Terme und y 2 haben, können Sie einen Kreis bilden. Anstatt die Oberfläche einer Kugel zu definieren, beschreiben Sie einen ausgefüllten Kreis. Die Gleichung, die Sie stattdessen anpassen, ist r 2a x 2 + b y 2 + ϵ . x2y2r2ax2+by2+ϵ

Sie projizieren die "Kugel", wie auch immer sie geformt sein mag, in den Ausdruck für den Kreis. Es könnte sich um eine diagonal ausgerichtete "Kugel" handeln, die eher wie eine Nähnadel geformt ist, sodass die Komponenten die Schätzungen der beiden Achsen völlig zunichte machen. Es könnte eine Kugel sein, die aussieht wie ein fast zerquetschtes M & M, bei dem die Münzachsen "x" und "y" sind und es keine Projektion gibt. Sie können ohne die " z " -Informationen nicht wissen, um welche es sich handelt .zz

Der letzte Absatz sprach von einem "reinen Informations" -Fall und berücksichtigte das Rauschen nicht. Messungen in der realen Welt haben das Signal mit Rauschen. Das Rauschen entlang des Umfangs, das an den Achsen ausgerichtet ist, wirkt sich viel stärker auf Ihre Passform aus. Obwohl Sie die gleiche Anzahl von Stichproben haben, werden Sie mehr Unsicherheit in Ihren Parameterschätzungen haben. Wenn es sich um eine andere Gleichung als diesen einfachen linearachsenorientierten Fall handelt, können die Dinge " birnenförmig " werden. Ihre aktuellen Gleichungen haben die Form einer Ebene. Anstatt eine Grenze (die Oberfläche des Balls) zu haben, werden die Z-Daten möglicherweise auf der gesamten Karte angezeigt - die Projektion könnte ein ernstes Problem darstellen.

Ist es in Ordnung zu modellieren? Das ist ein Urteilsspruch. Ein Experte, der die Einzelheiten des Problems versteht, könnte darauf antworten. Ich weiß nicht, ob jemand eine gute Antwort geben kann, wenn er weit vom Problem entfernt ist.

Sie verlieren einige gute Dinge, einschließlich der Gewissheit bei Parameterschätzungen und der Art des zu transformierenden Modells.

b3

EngrStudent - Setzen Sie Monica wieder ein
quelle
f(x,y,z)
Ich kann Ihrem Argument nicht folgen, weil ich nichts sehe, das einem "ausgefüllten Quadrat" entspricht.
whuber
0

Die anderen Antworten sind zwar nicht falsch, erschweren das Problem jedoch ein wenig.

x3x1x2β3x3

Daniel Ludwinski
quelle