Die Residuen sind unsere Schätzungen der Fehlerbedingungen
Die kurze Antwort auf diese Frage ist relativ einfach: Die Annahmen in einem Regressionsmodell sind Annahmen über das Verhalten der Fehlerterme, und die Residuen sind unsere Schätzungen der Fehlerterme. Ipso facto zeigt die Untersuchung des Verhaltens der beobachteten Residuen, ob die Annahmen über die Fehlerterme plausibel sind oder nicht.
Um diese allgemeine Argumentation genauer zu verstehen, ist es hilfreich, das Verhalten der Residuen in einem Standardregressionsmodell im Detail zu untersuchen. Bei einer standardmäßigen multiplen linearen Regression mit unabhängigen homoskedastischen normalen Fehlertermen ist die Verteilung des Restvektors bekannt, sodass Sie die zugrunde liegenden Verteilungsannahmen im Regressionsmodell testen können. Die Grundidee ist, dass Sie die Verteilung des Restvektors unter den Regressionsannahmen herausfinden und dann prüfen, ob die Restwerte plausibel mit dieser theoretischen Verteilung übereinstimmen. Abweichungen von der theoretischen Restverteilung zeigen, dass die zugrunde liegende angenommene Verteilung der Fehlerterme in gewisser Hinsicht falsch ist.
Wenn Sie die zugrunde liegende Fehlerverteilung für ein Standardregressionsmodell verwenden und die OLS-Schätzung für die Koeffizienten verwenden, kann die Verteilung der Residuen als angezeigt werden die multivariate Normalverteilung:ϵi∼IID N(0,σ2)
r=(I−h)ϵ∼N(0,σ2(I−h)),
Dabei ist ist die Hutmatrix für die Regression. Der Restvektor ahmt den Fehlervektor nach, aber die Varianzmatrix hat den zusätzlichen multiplikativen Term . Um die Regressionsannahmen zu testen, verwenden wir die studentisierten Residuen mit einer marginalen T-Verteilung:h=x(xTx)−1xTI−h
si≡riσ^Ext⋅(1−li)∼T(dfRes−1).
(Diese Formel gilt für die extern studentisierten Residuen, wobei der Varianzschätzer die betrachtete Variable ausschließt. Die Werte sind die , die die Diagonalwerte in der Hutmatrix sind . Die studentisierten Residuen sind dies nicht unabhängig, aber wenn groß ist, sind sie nahezu unabhängig. Dies bedeutet, dass die Randverteilung eine einfache bekannte Verteilung ist, die gemeinsame Verteilung jedoch kompliziert ist.) Nun, wenn die Grenze existiert, dann kann gezeigt werden, dass die Koeffizientenschätzer konsistente Schätzer der wahren Regressionskoeffizienten sind und die Residuen konsistente Schätzer der wahre Fehlerbedingungen.li=hi,inlimn→∞(xTx)/n=Δ
Dies bedeutet im Wesentlichen, dass Sie die zugrunde liegenden Verteilungsannahmen für die Fehlerterme testen, indem Sie die studentisierten Residuen mit der T-Verteilung vergleichen. Jede der zugrunde liegenden Eigenschaften der Fehlerverteilung (Linearität, Homoskedastizität, unkorrelierte Fehler, Normalität) kann unter Verwendung der analogen Eigenschaften der Verteilung der studentisierten Residuen getestet werden. Wenn das Modell korrekt angegeben ist, sollten die Residuen für große nahe an den wahren Fehlertermen liegen und eine ähnliche Verteilungsform haben.n
Das Weglassen einer erklärenden Variablen aus dem Regressionsmodell führt dazu , dass die Variablenverzerrung in den Koeffizientenschätzern weggelassen wird, was sich auf die Restverteilung auswirkt. Sowohl der Mittelwert als auch die Varianz des Restvektors werden von der ausgelassenen Variablen beeinflusst. Wenn die ausgelassenen Terme in der Regression wird der Restvektor zu . Wenn die Datenvektoren in der ausgelassenen Matrix IID-Normalvektoren sind und unabhängig von den Fehlertermen, dannZδr=(I−h)(Zδ+ϵ)ZZδ+ϵ∼N(μ1,σ2∗I) so dass die Restverteilung wird:
r=(I−h)(Zδ+ϵ)∼N(μ(I−h)1,σ2∗(I−h)).
Wenn das Modell bereits einen Intercept-Term enthält (dh wenn sich der Einheitsvektor in der Entwurfsmatrix befindet), dann1(I−h)1=0Dies bedeutet, dass die Standardverteilungsform der Residuen erhalten bleibt. Wenn das Modell keinen Intercept-Term enthält, kann die ausgelassene Variable einen Mittelwert ungleich Null für die Residuen ergeben. Wenn die ausgelassene Variable nicht IID-normal ist, kann dies alternativ zu anderen Abweichungen von der Standardrestverteilung führen. In diesem letzteren Fall ist es unwahrscheinlich, dass die Resttests etwas erkennen, das aus dem Vorhandensein einer ausgelassenen Variablen resultiert. Es ist normalerweise nicht möglich zu bestimmen, ob Abweichungen von der theoretischen Restverteilung aufgrund einer ausgelassenen Variablen oder nur aufgrund einer schlecht gestellten Beziehung zu den eingeschlossenen Variablen auftreten (und dies ist wohl auf jeden Fall dasselbe).
Normalerweise bedeuten die Begriffe Residuen und Fehler dasselbe. Wenn Ihr Modell keine Prädiktoren hat, ist E (Y) tatsächlich der Mittelwert von Y. Bei Prädiktoren (wie in Ihrem Modell) ist E (Y) der Wert von Y, der von jedem X vorhergesagt wird. Die Residuen sind also die Differenz zwischen jedem beobachteten und vorhergesagt Y.
quelle