Die Folgen der Heteroskedastizität sind:
Der gewöhnliche Schätzer der kleinsten Quadrate (OLS) ist immer noch konsistent, aber nicht mehr effizient .b^=(X′X)X′y
Die Schätzung wobei ist kein konsistenter Schätzer mehr für die Kovarianzmatrix Ihres Schätzers . Es kann sowohl voreingenommen als auch inkonsistent sein. In der Praxis kann dies die Varianz erheblich unterschätzen.Var^(b)=(X′X)−1σ^2σ^2=1n−ke′eb^
Punkt (1) ist möglicherweise kein Hauptproblem. Leute benutzen sowieso oft den gewöhnlichen OLS-Schätzer. Aber Punkt (2) muss angesprochen werden. Was ist zu tun?
Sie benötigen heteroskedastizitätskonsistente Standardfehler . Der Standardansatz besteht darin, sich auf Annahmen mit großen Stichproben und asymptotische Ergebnisse zu stützen und die Varianz von schätzen, indem:b
SS=1
Var^(b)=1n(X′Xn)−1S(X′Xn)−1
wobei als geschätzt wird .
SS=1n−k∑i(xiei)(xiei)′
Dies ergibt heteroskedastizitätskonsistente Standardfehler. Sie werden auch als Huber-White-Standardfehler, robuste Standardfehler, "Sandwich" -Schätzer usw. bezeichnet. Jedes grundlegende Standardstatistikpaket bietet eine Option für robuste Standardfehler. Benutze es!
Einige zusätzliche Kommentare (Update)
Wenn die Heteroskedastizität groß genug ist, kann die reguläre OLS-Schätzung große praktische Probleme haben. Obwohl Sie immer noch ein konsistenter Schätzer sind, können Sie kleine Stichprobenprobleme haben, bei denen Ihre gesamte Schätzung von einigen wenigen Beobachtungen mit hoher Varianz bestimmt wird. (Darauf spielt @ seanv507 in Kommentaren an). Der OLS-Schätzer ist insofern ineffizient, als er Beobachtungen mit hoher Varianz mehr Gewicht verleiht als optimal. Die Schätzung kann extrem laut sein.
Ein Problem beim Versuch, die Ineffizienz zu beheben, besteht darin, dass Sie wahrscheinlich auch die Kovarianzmatrix für die Fehlerterme nicht kennen. Daher kann die Verwendung von GLS die Situation noch verschlimmern, wenn Ihre Schätzung der Kovarianzmatrix für den Fehlerterm Müll ist.
Außerdem können die oben angegebenen Huber-White-Standardfehler bei kleinen Beispielen große Probleme haben. Zu diesem Thema gibt es eine lange Literatur. Z.B. siehe Imbens und Kolesar (2016), "Robuste Standardfehler in kleinen Stichproben: Einige praktische Ratschläge."
Richtung für das weitere Studium:
Wenn dies ein Selbststudium ist, sind als nächstes praktische Clusterfehler zu berücksichtigen. Diese korrigieren die willkürliche Korrelation innerhalb von Clustern.
Nun, die kurze Antwort ist im Grunde, dass Ihr Modell falsch ist, dh
Bei Heteroskedastizität treten also Probleme bei der Schätzung der Varianz-Kovarianz-Matrix auf, die zu falschen Standardfehlern der Koeffizienten führen, was wiederum zu falschen t-Statistiken und p-Werten führt. Kurz gesagt, wenn Ihre Fehlerterme keine konstante Varianz aufweisen, sind gewöhnliche kleinste Quadrate nicht die effizienteste Methode zur Schätzung. Schauen Sie sich diese verwandte Frage an.
quelle
"Heteroskedastizität" macht es schwierig, die wahre Standardabweichung der Prognosefehler abzuschätzen. Dies kann zu Konfidenzintervallen führen, die zu breit oder zu eng sind (insbesondere sind sie zu eng für Vorhersagen außerhalb der Stichprobe, wenn die Varianz der Fehler mit der Zeit zunimmt).
Außerdem kann sich das Regressionsmodell zu stark auf eine Teilmenge von Daten konzentrieren.
Gute Referenz: Testen der Annahmen der linearen Regression
quelle