Annahmen zur Ableitung des OLS-Schätzers

14

Kann mir jemand kurz erklären, warum jede der sechs Annahmen benötigt wird, um den OLS-Schätzer zu berechnen? Ich habe nur über Multikollinearität herausgefunden - wenn es existiert, können wir die (X'X) -Matrix nicht invertieren und wiederum den Gesamtschätzer schätzen. Was ist mit den anderen (z. B. Linearität, mittlere Nullfehler usw.)?

Ieva
quelle
1
Suchen Sie eine begriffliche Erklärung oder benötigen Sie eine mathematische Demonstration?
gung - Wiedereinsetzung von Monica
4
Ordentliche kleinste Quadrate sind ein numerisches Verfahren, für dessen Berechnung Sie nicht viel voraussetzen müssen (abgesehen von der Invertierbarkeit). Die Annahmen sind erforderlich, um die darauf basierende Schlussfolgerung zu rechtfertigen. Siehe meine gestrige Antwort: stats.stackexchange.com/questions/148803/…
kjetil b halvorsen
1
Auf welche "sechs Annahmen" beziehen Sie sich genau? Sie erwähnen nur drei.
whuber
Ich beziehe mich auf 1) Linearität 2) Abwesenheit von Multikollinearität 3) mittlere Nullfehler 4) sphärische Fehler (Homoskedastizität und Nicht-Autokorrelation) 5) nicht-stochastische Regressoren und 6) Normalverteilung. Wie aus der Antwort unten hervorgeht, sind nur die ersten drei erforderlich, um den Schätzer abzuleiten, und andere sind nur erforderlich, um sicherzustellen, dass der Schätzer BLAU ist.
Ieva

Antworten:

23

Sie können den OLS-Schätzer immer berechnen, außer wenn Sie eine perfekte Multikollinearität haben. In diesem Fall haben Sie eine perfekte mehrlineare Abhängigkeit in Ihrer X-Matrix. Infolgedessen ist die Annahme des vollen Ranges nicht erfüllt und Sie können den OLS-Schätzer aufgrund von Umkehrbarkeitsproblemen nicht berechnen.

Technisch gesehen benötigen Sie die anderen OLS-Annahmen nicht, um den OLS-Schätzer zu berechnen. Nach dem Gauß-Markov-Theorem müssen Sie jedoch die OLS-Annahme (clrm-Annahmen) erfüllen, damit Ihr Schätzer BLAU ist.

Eine ausführliche Diskussion des Gauß-Markov-Theorems und seiner mathematischen Herleitung finden Sie hier:

http://economictheoryblog.com/2015/02/26/markov_theorem/

Wenn Sie einen Überblick über die OLS-Annahme suchen, dh wie viele vorhanden sind, was diese erfordern und was passiert, wenn Sie die einzelne OLS-Annahme verletzen, finden Sie hier möglicherweise eine ausführliche Diskussion:

http://economictheoryblog.com/2015/04/01/ols_assumptions/

Ich hoffe das hilft, Prost!

Simon Degonda
quelle
14

Das Folgende basiert auf einfachen Querschnitten, für Zeitreihen und Panels ist es etwas anders.

  1. In der Grundgesamtheit und daher in der Stichprobe kann das Modell wie folgt geschrieben werden: Dies ist die Linearitätsannahme, die manchmal missverstanden wird. Das Modell sollte in den Parametern linear sein - nämlich dasβk. Sie können mit demxiselbsttun, was Sie wollen. Protokolle, Quadrate usw. Ist dies nicht der Fall, kann das Modell von OLS nicht geschätzt werden. Sie benötigen einen anderen nichtlinearen Schätzer.
    Y=β0+β1x1++βkxk+u=Xβ+u
    βkxi
  2. Zufallsstichprobe (für Querschnitte) Diese wird für Rückschlüsse und Probeneigenschaften benötigt. Für die reine Mechanik von OLS ist das etwas irrelevant.
  3. Keine perfekte Kollinearität Dies bedeutet, dass es keine perfekte Beziehung zwischen . Dies ist die Annahme, die sicherstellt, dass ( X ' X ) nicht singulär ist, so dass ( X ' X ) - 1xi(XX)(XX)1 existiert.
  4. Bedingter Mittelwert Null: E(u|X)=0 . Dies bedeutet, dass Sie das Modell korrekt angegeben haben, sodass: keine Variablen ausgelassen werden und die von Ihnen geschätzte Funktionsform im Verhältnis zum (unbekannten) Populationsmodell korrekt ist. Dies ist immer die problematische Annahme bei OLS, da es keine Möglichkeit gibt, jemals zu wissen, ob es tatsächlich gültig ist oder nicht.
  5. Die Varianz der Fehler Begriff konstant ist , bedingt durch die alle : V a r ( u | X ) = σ 2 Auch dieses Mittel nichts für die Mechanik der OLS, aber es sicherzustellen , dass die üblichen Standardfehler gültig sind.XiVar(u|X)=σ2
  6. Normalität; der Fehlerterm u ist unabhängig von und folgt u N ( 0 , σ 2 ) . Auch dies ist für die Mechanik der OLS irrelevant, aber sichergestellt , dass die Stichprobenverteilung der β k ist normal, ^ β k ~ N ( β k , V a r ( ^ β k ) ) .XiuN(0,σ2)βkβk^N(βk,Var(βk^))

Nun zu den Implikationen.

  1. Unter 1 - 6 (den klassischen linearen Modellannahmen) ist OLS BLAU (bester linearer unverzerrter Schätzer), am besten im Sinne der niedrigsten Varianz. Es ist auch unter allen linearen Schätzern sowie unter allen Schätzern, die eine Funktion des x verwenden, effizient. Noch wichtiger ist, dass OLS unter 1 - 6 auch der unverzerrte Schätzer für die minimale Varianz ist. Dies bedeutet, dass OLS unter allen unverzerrten Schätzern (nicht nur der linearen) die geringste Varianz aufweist. OLS ist auch konsistent.

  2. Unter 1 - 5 (die Gauß-Markov-Annahmen) ist OLS BLAU und effizient (wie oben beschrieben).

  3. Unter 1 - 4 ist OLS unvoreingenommen und konsistent.

Tatsächlich ist OLS auch unter einer schwächeren Annahme als konsistent, nämlich dass: ( 1 ) E ( u ) = 0 und ( 2 ) C o v ( x j , u ) = 0 . Der Unterschied zu Annahmen 4 besteht darin, dass Sie unter dieser Annahme die funktionale Beziehung nicht perfekt nageln müssen.(4)(1) E(u)=0(2) Cov(xj,u)=0

Repmat
quelle
Ich denke, Sie malen ein zu dunkles Bild über die mittlere Nullbedingung. Wenn es eine Verzerrung gäbe, wäre es nicht angebracht, die Summe der quadratischen Abweichungen zu minimieren. Andererseits können Sie die Verzerrung erfassen, indem Sie die Regressionsgleichung verschieben (die Verzerrung in absorbieren ) und dann Sie tun haben mittlere 0. Mit anderen Worten, 4 beide unmöglich ist , zu überprüfen und einfach zu ignorieren. β0
user3697176
Es tut mir leid, aber ich stimme nicht zu. Oder verstehe ich dich einfach falsch? Könnten Sie entweder etwas erläutern oder einen Hinweis geben?
Repmat
Ich spreche nicht von absichtlich verzerrter Schätzung (z. B. Gratregression), an der das OP meines Erachtens nicht interessiert war. Ich spreche von einem Modell der Form , in denen --- aus irgendeinem seltsamen Grunde --- der Rest ε hat Mittelwert & agr; & ne; 0 . In diesem Fall ist es einfach, eine formale Transformation zu y = α + β 0 + β 1 x 1 + + durchzuführeny=β0+β1x1++βxxn+ϵϵα0 , wobei der Mittelwert von η Null ist. y=α+β0+β1x1++βxxn+ηη
user3697176
@ user3697176 Was Sie schreiben, ist nicht korrekt. Ich habe gerade eine Antwort gepostet, um zu erklären, warum.
Alecos Papadopoulos
Wenn die Annahme 1 nicht erfüllt ist, können wir dann nicht trotzdem OLS verwenden, um die Populationskovarianz abzuschätzen (obwohl wir wissen, dass es keine lineare Beziehung gibt)?
Maximal
7

Ein Kommentar in einer anderen Frage ließ Zweifel an der Wichtigkeit der Bedingung aufkommen und argumentierte, dass sie durch die Aufnahme eines konstanten Terms in die Regressionsspezifikation korrigiert werden könne und daher "leicht ignoriert werden könne".E(uX)=0

Das ist nicht so. Die Einbeziehung eines konstanten Terms in die Regression absorbiert das möglicherweise von Null verschiedene bedingte Mittel des Fehler-Terms, wenn wir annehmen, dass dieses bedingte Mittel bereits eine Konstante und keine Funktion der Regressoren ist . Dies ist die entscheidende Annahme, die unabhängig davon getroffen werden muss, ob wir einen konstanten Term einschließen oder nicht:

E(uX)=const.

Wenn dies zutrifft, wird der Mittelwert ungleich Null zu einem Ärgernis, das wir einfach durch Einfügen eines konstanten Terms lösen können.

Wenn dies jedoch nicht zutrifft (dh wenn das bedingte Mittel keine Null- oder Nicht-Null- Konstante ist ), löst die Einbeziehung des konstanten Terms das Problem nicht: Was es in diesem Fall "absorbiert", ist eine Größe das hängt von der spezifischen Stichprobe und den Erkenntnissen der Regressoren ab. In der Realität ist der unbekannte Koeffizient, der an die Reihe von Einsen gebunden ist, nicht wirklich eine Konstante, sondern eine Variable, die von den Regressoren durch das nicht konstante bedingte Mittel des Fehlerausdrucks abhängt.

Was bedeutet das? Nehmen wir zur Vereinfachung den einfachsten Fall an, in dem ( i indiziert die Beobachtungen), aber E ( u ix i ) = h ( x i ) . Dh , dass der Fehlerterm von den Regressoren mit Ausnahme von seiner vorübergehenden diejenigen mittleren unabhängig ist (in X wir nicht umfassen eine Reihe von Einsen).E(uiXi)=0iE(uixi)=h(xi)X

Angenommen, wir spezifizieren die Regression unter Einbeziehung eines konstanten Terms (eines Regressors aus einer Reihe von Einsen).

y=a+Xβ+ε

and compacting notation

y=Zγ+ε

where a=(a,a,a...), Z=[1:X], γ=(a,β), ε=ua.

Then the OLS estimator will be

γ^=γ+(ZZ)1Zε

For unbiasedness we need E[εZ]=0. But

E[εixi]=E[uiaxi]=h(xi)a

which cannot be zero for all i, since we examine the case where h(xi) is not a constant function. So

E[εZ]0E(γ^)γ

and

If E(uixi)=h(xi)h(xj)=E(ujxj), then even if we include a constant term in the regression, the OLS estimator will not be unbiased, meaning also that the Gauss-Markov result on efficiency, is lost.

Moreover, the error term ε has a different mean for each i, and so also a different variance (i.e. it is conditionally heteroskedastic). So its distribution conditional on the regressors differs across the observations i.

But this means that even if the error term ui is assumed normal, then the distribution of the sampling error γ^γ will be normal but not zero-mean mormal, and with unknown bias. And the variance will differ. So

If E(uixi)=h(xi)h(xj)=E(ujxj), then even if we include a constant term in the regression, Hypothesis testing is no longer valid.

In other words, "finite-sample" properties are all gone.

We are left only with the option to resort to asymptotically valid inference, for which we will have to make additional assumptions.

So simply put, Strict Exogeneity cannot be "easily ignored".

Alecos Papadopoulos
quelle
I'm not completely sure I understand this. Isn't assuming that the mean is a not a function of the regressors equivalent to assuming homoscedasticity?
Batman
@Batman To what part of my post are you referring to?
Alecos Papadopoulos
When you say "The inclusion of a constant term in the regression will absorb the possibly non-zero conditional mean of the error term if we assume that this conditional mean is already a constant and not a function of the regressors. This is the crucial assumption that must be made independently of whether we include a constant term or not." Isn't assuming that the conditional mean isn't a function of the regressors exactly what we're assuming when we assume homoscedasticity?
Batman
@Batman Homoskedasticity is an assumption about the variance. Assuming mean -independence does not imply that E(uj2x) is also a constant, which is also needed for conditional homoskedasticity. In fact, mean-independence, E(ux)=const. together with conditional heteroskedasticity, E(u2x)=g(x) is a standard model variant.
Alecos Papadopoulos