In meinem Einführungskurs in die Ökonometrie haben wir die GM-Annahmen und die Homoskedastizität diskutiert. Leider habe ich einige Verwirrungen und miteinander verknüpfte Fragen, daher frage ich mich, ob mir jemand bitte bei meinem Verständnis helfen könnte.
Modell: y i = β 0 + β 1 x i + u iyi=β0+β1xi+ui
Was ist der Unterschied zwischen E [ u ] = 0E[u]=0 und E [ u | x ] = 0E[u|x]=0 ? Bedeutet das erstere das letztere?
Ich verstehe , dass diese Marken , dass der bedingten Mittelwert, dh , dass der erwartete Wert von uu ist σ 2σ2 unabhängig von xx , aber ist das nicht durch die bedingungslosen Mittel implizierte? Ist eine davon eine stärkere Annahme?
Bedeutet das obige c o v ( u , x ) = 0cov(u,x)=0 und wie? Was ist der Unterschied zwischen c o v ( y , x )cov(y,x) und c o v ( u i , x i )cov(ui,xi) ?
Wir haben festgestellt, dass die Annahme der Homoskedastizität keine Kovarianz zwischen uu und xx impliziert , aber wie kommt es dazu? Und warum wird es als "schwächere Annahme" bezeichnet (zumindest von Woolridge)? Was mich wirklich verwirrt, ist, dass wir oft die Notation c o v ( u i , x i )cov(ui,xi) anstelle von c o v ( u , x ) verwendencov(u,x) - gibt es einen Unterschied? Wenn sich das erste auf ein bestimmtes ii bezieht , hat es dann überhaupt eine Bedeutung?
Entschuldigung, wenn diese Fragen eher trivial sind. Und vielen Dank für Ihre Hilfe!
Antworten:
Eine intuitive Erklärung könnte helfen.
(i) E [ u ] = 0E[u]=0 gegen E [ u | x ] = 0E[u|x]=0 : Stellen Sie sich vor, Sie dividieren die Population durch den Wert von x,x sodass in jedem Teil der Population derselbe Wert von x enthaltenx ist. Sie können dann den Mittelwert von uu für jede Scheibe erhalten. " E [ u | x ] = 0E[ u | x ] = 0 ", was eine Abkürzung von " E [ u | x = c ] = 0E[ u | x = c ] = 0 für (fast) alle c istc ", bedeutet, dass der Durchschnitt von uu in jeder Partition Null ist. Sie können auch den Durchschnitt von uu für die gesamte Bevölkerung ermitteln." E [ u ] = 0E[ u ] = 0 "bedeutet, dass der Durchschnitt von uu für die gesamte Bevölkerung Null ist.
Zum Beispiel sei xx Jahre der Bildung. E [ u | x ] = 0E[ u | x ] = 0 bedeutet, dass der Durchschnitt von uu für diejenigen mit 9 Jahren Ausbildung Null ist, der Durchschnitt von uu für diejenigen mit 10 Jahren Ausbildung Null ist usw., während E [ u ] = 0E[ u ] = 0 bedeutet, dass der Durchschnitt von u istu für die gesamte Bevölkerung ist Null.
Sie sehen, dass " E [ u | x ] = 0E[ u | x ] = 0 " eine Art " u " impliziertu nicht mit xx verwandt ist ", und dies wird als mittlere Unabhängigkeit bezeichnet . Andererseits sagt E [ u ] = 0E[ u ] = 0 nichts über die Beziehung zwischen uu und x ausx . E [ u ] = 0E[ u ] = 0 macht Sinn, ohne dass xx involviert ist, während E [ u | x ] = 0E[ u | x ] = 0 macht nur in Bezug auf xx Sinn .
(ii) v a r ( u ) = σ 2v a r ( u ) = σ2 vs v a r ( u | x ) = σ 2v a r ( u | x ) = σ2 :Man stelledie Population Partitionieren durch den Wert von x . Sie können die Varianz von u für jede Scheibe erhalten. ' v a r ( u | x ) = σ 2 ' bedeutet, dass die Varianz von u für jede Partition σ 2 ist . Hier ist der entscheidende Punkt, dass σ 2 ist eine Konstante und ist nicht an x beteiligt . Dies bedeutet, dass alle Schichten die gleiche Varianz haben. v a r (x u v a r ( u | x ) = σ2 u σ2 σ2 x u | x ) = σ 2v a r ( u | x ) = σ2 ist sehr informativ. Als nächstes können Sie auch die Varianz erhalten uu für die gesamte Bevölkerung, und v a r ( u ) = σ 2v a r ( u ) = σ2 bedeutetdass die Varianz (von uu für die Gesamtbevölkerung) bezeichnet σ 2σ2 , wobei σ 2σ2 nur eine Schreibweise ist.
v a r ( u | x )v a r ( u | x ) kann von xx (Heteroskedastizität)abhängen, aber es ist völlig unsinnig zu fragen, ob v a r ( u )v a r ( u ) von xx abhängt,weil v a r ( u )v a r ( u ) von Anfangan nichts mit xx zu tun hat( es sei denn, Sie meinen v a r ( u | x )v a r ( u | x ) mit v a r ( u )v a r ( u ) ).
(iii) c o v ( x , u ) = 0c o v ( x , u ) = 0 : Dies bedeutet nur, dass c o v ( x , u ) = 0 istc o v ( x , u ) = 0 , wobei c o v ( a , b ) definiert ist als E [ ( a - E a ) ( b - E b ) ] . In Ihrem Fall c o v ( x , u )= E [ x u ], weil E [ uc o v ( a , b ) E[ ( a - Ea ) ( b - Eb ) ] c o v ( x , u ) = E[ x u ] ] = 0E[ u ] = 0 . Wenn Sie eine Vorstellung über die Bedeutung von c o v ( x , u ) = 0c o v ( x , u ) = 0 benötigen, stellen Sie sich vor, Sie haben ( x , u )( x , u ) -Werte für die gesamte Grundgesamtheit in der XY-Ebene aufgetragen, wobei xx auf der horizontalen Achse und uu auf der vertikalen Achse liegt . Sie zeichnen eine schöne gerade Linie (wo es wichtig ist, gerade zu sein). c o v ( x , u )= 0c o v ( x , u ) = 0 bedeutet, dass die Gerade horizontal ist. Es sagt etwas darüber aus, dass uu und xx nicht verwandt sind, und wenn es passiert, sagen wir, dass " xx und uu nicht korreliert sind".
E [ u | x ] = 0E[ u | x ] = 0 impliziert c o v ( x , u ) = 0c o v ( x , u ) = 0 , aber nicht umgekehrt, was der Grund istwarum c o v ( x , u ) istschwächerals E [ u | x ] = 0 . Sie können es mit dem Gesetz der wiederholten Erwartungen beweisen: E [ x u ] = E [ x E ( u| x ) ] = E [ x ≤ 0 ] = E [ 0 ] = 0 . Nehmen wir für ein Gegenbeispiel umgekehrt an, dass x ∼ N ( 0 ,cov(x,u) E[u|x]=0 E[xu]=E[xE(u|x)]=E[x⋅0]=E[0]=0 1 )x∼N(0,1) und u = x 2 - 1 sindu=x2−1 . Dann ist E [ u | x ] = x 2 - 1E[u|x]=x2−1 , was nicht Null ist, außer x = ± 1,x=±1 aber c ov ( x , u ) = E [ x ( x 2 - 1 ) ] = E [ x 3 ] - E [ x ] = 0 - 0 = 0cov(x,u)=E[x(x2−1)]=E[x3]−E[x]=0−0=0 .
(iv) Was ist der Unterschied zwischen c o v ( y , x )cov(y,x) und c o v ( u , x )cov(u,x) ? Wenn y = β 0 + β 1 x + uy=β0+β1x+u , c o v ( y , x ) = c o v ( β 0 + β 1 x + u , x ) = β 1c o v ( x , x ) + c o v ( u , x )cov(y,x)=cov(β0+β1x+u,x)=β1cov(x,x)+cov(u,x) , wobei c o v ( x , x ) = v a r ( x )cov(x,x)=var(x) per Definition. Das ist der unterschied
HINZUFÜGEN:
Ich habe bemerkt , nur die Verwirrung des OP über c o v ( x i , u i )cov(xi,ui) und c o v ( x , u )cov(x,u) . Erstens kann c o v ( x , u )cov(x,u) intuitiv als die oben in (iii) erläuterte Bevölkerungseigenschaft verstanden werden. c o v ( x , u )cov(x,u) handelt von der Population und sagt nichts über die Stichprobe aus. Die Notation c o v ( x i , u i )cov(xi,ui) ist auf der anderen Seite über die Probe, und inTat soll so etwas wie "bedeutet , c o v ( x i , u i )cov(xi,ui) , i = 1 , ... , ni=1,…,n ", dh c o v ( x 1 , u 1 )cov(x1,u1) , c o v ( x 2 , u 2 ) , ... und c o v ( x n , un ) . Sie sind alle gleich, wenn die erste Person, die zweite Person, ..., diecov(x2,u2) cov(xn,un) nn te Person unabhängige Zufallszahlen aus derselben Population sind (was die Bedeutung von i i d istiid ). Wenn sie aus verschiedenen Populationen stammen, kann c o v ( x i , u i )cov(xi,ui) für verschiedene ii unterschiedlich sein , aber ich bin mir ziemlich sicher, dass Sie von i i d ausgeheniid .
Nun, was ist c o v ( x 1 , u 1 )cov(x1,u1) dann? Das ist der schwierige Teil. Um seine Bedeutung zu verstehen, sollten Sie verstehen, dass ( x 1 , u 1 ) einZufallsvektor ist, dessen Wert sich ändern kann, wenn Sie die Abtastung in Ihren Gedankenexperimenten wiederholen. (Dies wird Sie so lange verwirren, bis Sie diesen Punkt verstanden haben.) Die "erste Person" in der Stichprobe ändert sich immer wieder, wenn Sie die Stichprobe immer wieder in Ihrem Kopf zeichnen, und damit die ( x 1 , u 1 ) über den wiederholten Stichproben. Wenn Sie die erste Beobachtung unabhängig von der Grundgesamtheit zeichnen, in der Sie über c o v sprechen(x1,u1) (x1,u1) Der Wert ändert sich bei wiederholten Proben. Wenn Sie also die Abtastung auf unbestimmte Zeit wiederholen, ändern sich die Werte von x 1x1 und u 1u1 und bilden eine (gemeinsame) Verteilung. c o v ( x 1 , u 1 )cov(x1,u1) ist die Kovarianz dieser gemeinsamen Verteilung. Ebenso können Sie c o v ( x 2 , u 2 )cov(x2,u2) als die Kovarianz von x 2x2 und u 2 verstehenu2 ( x , u )cov(x,u) , ist c o v ( x 1 , u 1 ) = c o v ( x , u )cov(x1,u1)=cov(x,u) .
Wenn wir also über das Populationsvermögen sprechen, verwenden wir die Notation c o v ( x , u )cov(x,u) . Wenn wir über die Kovarianz von x 1x1 und u 1u1 (über wiederholte Samples) sprechen , verwenden wir die Notation c o v ( x 1 , u 1 )cov(x1,u1) . Die Notation c o v ( x i , u i )cov(xi,ui) ist eine (schlampige) Kurznotation von c o v ( x 1 , u 1 ) , … , c o v ( x n , u n )cov(x1,u1),…,cov(xn,un) . " c o v ( x i , u i )cov(xi,ui) " selbst macht nicht viel Sinn, bis Sie sagen, was ichi bin, wie in " c o v ( x i , u i )cov(xi,ui) ist Null für jedes i = 1 , ... , ni=1,…,n " , oder " c o v ( x i ,u i )cov(xi,ui) ist für alle NichtNull - i = 1 , ... , ni=1,…,n , aber sie sind für alle gleich ii .“Die Aussage " c o v ( x i , u i ) = 0cov(xi,ui)=0 " istRegel ein fauler (oder ungeschickt) schriftlich " c o v ( x i , u i ) = 0cov(xi,ui)=0 für alle i = 1 , ... , ni=1,…,n ", was c o v bedeutet( x 1 , u 1 ) = 0cov(x1,u1)=0 , c o v ( x 2 , u 2 ) = 0cov(x2,u2)=0 , ..., c o v ( x n , u n ) = 0cov(xn,un)=0 .
quelle
Nur um die vorherige Antwort zu ergänzen, da ich nicht genug Reputation habe, um einen Kommentar abzugeben:
Im Allgemeinen gilt für die Zufallsvariablen XX und YY :E [Y | X=x]E[Y|X=x] gibt an, was der erwartete Wert von ist YY ist, wenn X = x istX=x . Beachten Sie, dass dies eine reelle Zahl ist! Wenn XX und YY unabhängig sind, dannE [Y | X=x]=E [Y]E[Y|X=x]=E[Y] .
Wir können dies jedoch verwenden, um die bedingte Erwartung von Y beiY gegebenem XX als Zufallsvariable zu definieren, die für den Bereich von X definiert ist:
E [Y | X](x)=E [Y | X=x]
Dies ist eine Zufallsvariable, da wir den Wert von apriori nicht kennen X. x ist der Wert, den die Zufallsvariable X je nach Ergebnis annimmt. Somit ist die ‚Quelle‘ der Zufälligkeit X .
Eine wichtige Beziehung ist: E [Y]=E [E [ Y | X ] ]
wobei die äußerste Erwartung in Bezug auf den Wert X ist .
Wir können jetzt Ihre Frage beantworten.
E [u | x ] = 0 für alle x impliziertE [ u ] = 0 unter Verwendung der obigen Beziehung, wobei zu beachten ist, dass die Erwartung einer konstanten Zufallsvariablen dieselbe Konstante ist (hier 0 ).
quelle