Betrachten Sie als Beispiel den ChickWeight
Datensatz in R. Die Varianz wächst offensichtlich mit der Zeit. Wenn ich also eine einfache lineare Regression verwende, wie:
m <- lm(weight ~ Time*Diet, data=ChickWeight)
Meine Fragen:
- Welche Aspekte des Modells werden fraglich sein?
- Beschränken sich die Probleme darauf, außerhalb des
Time
Bereichs zu extrapolieren ? - Wie tolerant ist die lineare Regression bei Verstößen gegen diese Annahme (dh wie heteroskedastisch muss sie sein, um Probleme zu verursachen)?
Antworten:
Das lineare Modell (oder "gewöhnliche kleinste Quadrate") hat in diesem Fall immer noch seine Unparteilichkeitseigenschaft.
Angesichts der Heteroskedastizität in Bezug auf Fehler haben Sie immer noch unvoreingenommene Parameterschätzungen, verlieren jedoch die Kovarianzmatrix: Ihre Inferenz (dh Parametertests) ist möglicherweise ausgeschaltet. Die häufigste Lösung ist die Verwendung einer robusten Methode zur Berechnung der Kovarianzmatrix, auch bekannt als Standardfehler. Welches Sie verwenden, ist etwas domänenabhängig, aber die Methode von White ist ein Anfang.
Und der Vollständigkeit halber ist die serielle Korrelation von Fehlertermen schlechter, da dies zu verzerrten Parameterschätzungen führt.
quelle
Homoskedastizität ist eine der Gauß-Markov-Annahmen, die erforderlich sind, damit OLS der beste lineare unverzerrte Schätzer (BLAU) ist.
Der Gauß-Markov-Satz sagt uns, dass der Schätzer der kleinsten Quadrate für die Koeffizienten istβ ist unbefangen und hat eine minimale Varianz unter allen unbefangenen linearen Schätzern, vorausgesetzt, wir erfüllen alle Gauß-Markov-Annahmen. Weitere Informationen zum Gauß-Markov-Theorem einschließlich des mathematischen Beweises des Theorems finden Sie hier . Außerdem finden Sie hier eine vollständige Liste der OLS-Annahmen mit Erläuterungen, was passiert, wenn sie verletzt werden .
Durch die Zusammenfassung der Informationen auf den oben genannten Websites führt die Heteroskedastizität nicht zu einer Verzerrung der Schätzungen Ihrer Koeffizienten. Bei gegebener Heteroskedastizität können Sie die Varianz-Kovarianz-Matrix jedoch nicht richtig einschätzen. Daher sind die Standardfehler der Koeffizienten falsch. Dies bedeutet, dass man keine t-Statistiken und p-Werte berechnen kann und folglich keine Hypothesentests möglich sind. Insgesamt verliert OLS unter Heteroskedastizität seine Effizienz und ist nicht mehr BLAU.
Heteroskedastizität ist jedoch nicht das Ende der Welt. Glücklicherweise ist die Korrektur der Heteroskedastizität nicht schwierig. Mit dem Sandwich-Schätzer können Sie konsistente Standardfehler für die Koeffizienten schätzen. Die Berechnung der Standardfehler über den Sandwich Estimator ist jedoch mit Kosten verbunden. Der Schätzer ist nicht sehr effizient und Standardfehler können sehr groß sein. Eine Möglichkeit, einen Teil der Effizienz zurückzugewinnen, besteht darin, nach Möglichkeit Standardfehler zu clustern.
Weitere Informationen zu diesem Thema finden Sie auf den oben genannten Websites.
quelle
Das Fehlen einer Homoskedastizität kann zu unzuverlässigen Standardfehlerschätzungen der Parameter führen. Parameterschätzungen sind unvoreingenommen. Aber die Schätzungen sind möglicherweise nicht effizient (nicht BLAU). Weitere finden Sie unter folgendem Link
quelle
Es ist gut daran zu denken, dass unverzerrte Schätzer nicht bedeuten, dass das Modell "richtig" ist. In vielen Situationen führt das Kriterium der kleinsten Quadrate für die Schätzung der Regressionskoeffizienten zu einem Modell, das entweder (1) Regressionskoeffizienten aufweist, die nicht die richtige Bedeutung haben, oder (2) Vorhersagen, die dazu tendieren, große Fehler zu minimieren, aber diese ausgleichen es mit vielen kleinen Fehlern. Zum Beispiel glauben einige Analysten, dass auch bei der Umstellung aufLog( Y) Passt das Modell gut an, ist es gültig, vorauszusagen Y. Verwendung von OLS, weil Schätzungen unvoreingenommen sind. Dies minimiert die Summe der Fehlerquadrate, verteilt jedoch die Effekte auf dieβ s falsch und führen zu einer nicht wettbewerbsfähigen Summe der absoluten Fehler. Manchmal ist die mangelnde Konstanz der Varianz ein grundlegenderes Modellierungsproblem.
Bei der Betrachtung konkurrierender Modelle (zY. gegen Log( Y) Ordinale Regression) Ich vergleiche gerne die Vorhersagegenauigkeit mit Maßnahmen, die nicht per Definition durch den Anpassungsprozess optimiert wurden.
quelle
In den anderen Antworten finden Sie gute Informationen, insbesondere zu Ihrer ersten Frage. Ich dachte, ich würde ein paar ergänzende Informationen zu Ihren letzten beiden Fragen hinzufügen.
quelle