Warum verwenden wir Residuen, um die Annahmen zu Regressionsfehlern zu testen?

10

Angenommen, wir haben ein Modell .Yi=β0+β1Xi1+β2Xi2++βkXik+ϵi

Die Regression hat eine Reihe von Annahmen, wie zum Beispiel, dass die Fehler normal mit dem Mittelwert Null und der konstanten Varianz verteilt werden sollten. Mir wurde beigebracht, diese Annahmen unter Verwendung eines normalen QQ-Diagramms zu überprüfen, um die Normalität der Residuen zu testen, und eines Residuums-Diagramms, um zu überprüfen, ob die Residuen mit konstanter Varianz um Null variieren.ϵiei=YiY^i

Diese Tests beziehen sich jedoch alle auf die Residuen, nicht auf die Fehler.

Soweit ich weiß, werden die Fehler als Abweichung jeder Beobachtung von ihrem "wahren" Mittelwert definiert. Wir können also . Diese Fehler können von uns nicht beobachtet werden. * *ϵi=YiE[Yi]

Meine Frage lautet: Wie gut können die Residuen die Fehler nachahmen?

Wenn die Annahmen bei den Residuen erfüllt zu sein scheinen, bedeutet dies, dass sie auch bei den Fehlern erfüllt sind? Gibt es andere (bessere) Möglichkeiten, die Annahmen zu testen, z. B. das Modell an einen Testdatensatz anzupassen und die Residuen von dort abzurufen?


* Erfordert dies nicht, dass das Modell korrekt angegeben ist ? Das heißt, dass die Antwort tatsächlich eine Beziehung zu den Prädiktoren usw. in der vom Modell angegebenen Weise hat.X1,X2,

Wenn einige Prädiktoren fehlen (z. B. ), ist die Erwartung wäre nicht einmal der wahre Mittelwert, und eine weitere Analyse eines falschen Modells erscheint sinnlos.Xk+1 to XpE[Yi]=β0+β1Xi1+β2Xi2++βkXik

Wie prüfen wir, ob das Modell korrekt ist?

Mai
quelle

Antworten:

9

Die Residuen sind unsere Schätzungen der Fehlerbedingungen

Die kurze Antwort auf diese Frage ist relativ einfach: Die Annahmen in einem Regressionsmodell sind Annahmen über das Verhalten der Fehlerterme, und die Residuen sind unsere Schätzungen der Fehlerterme. Ipso facto zeigt die Untersuchung des Verhaltens der beobachteten Residuen, ob die Annahmen über die Fehlerterme plausibel sind oder nicht.

Um diese allgemeine Argumentation genauer zu verstehen, ist es hilfreich, das Verhalten der Residuen in einem Standardregressionsmodell im Detail zu untersuchen. Bei einer standardmäßigen multiplen linearen Regression mit unabhängigen homoskedastischen normalen Fehlertermen ist die Verteilung des Restvektors bekannt, sodass Sie die zugrunde liegenden Verteilungsannahmen im Regressionsmodell testen können. Die Grundidee ist, dass Sie die Verteilung des Restvektors unter den Regressionsannahmen herausfinden und dann prüfen, ob die Restwerte plausibel mit dieser theoretischen Verteilung übereinstimmen. Abweichungen von der theoretischen Restverteilung zeigen, dass die zugrunde liegende angenommene Verteilung der Fehlerterme in gewisser Hinsicht falsch ist.

Wenn Sie die zugrunde liegende Fehlerverteilung für ein Standardregressionsmodell verwenden und die OLS-Schätzung für die Koeffizienten verwenden, kann die Verteilung der Residuen als angezeigt werden die multivariate Normalverteilung:ϵiIID N(0,σ2)

r=(Ih)ϵN(0,σ2(Ih)),

Dabei ist ist die Hutmatrix für die Regression. Der Restvektor ahmt den Fehlervektor nach, aber die Varianzmatrix hat den zusätzlichen multiplikativen Term . Um die Regressionsannahmen zu testen, verwenden wir die studentisierten Residuen mit einer marginalen T-Verteilung:h=x(xTx)1xTIh

siriσ^Ext(1li)T(dfRes1).

(Diese Formel gilt für die extern studentisierten Residuen, wobei der Varianzschätzer die betrachtete Variable ausschließt. Die Werte sind die , die die Diagonalwerte in der Hutmatrix sind . Die studentisierten Residuen sind dies nicht unabhängig, aber wenn groß ist, sind sie nahezu unabhängig. Dies bedeutet, dass die Randverteilung eine einfache bekannte Verteilung ist, die gemeinsame Verteilung jedoch kompliziert ist.) Nun, wenn die Grenze existiert, dann kann gezeigt werden, dass die Koeffizientenschätzer konsistente Schätzer der wahren Regressionskoeffizienten sind und die Residuen konsistente Schätzer der wahre Fehlerbedingungen.li=hi,inlimn(xTx)/n=Δ

Dies bedeutet im Wesentlichen, dass Sie die zugrunde liegenden Verteilungsannahmen für die Fehlerterme testen, indem Sie die studentisierten Residuen mit der T-Verteilung vergleichen. Jede der zugrunde liegenden Eigenschaften der Fehlerverteilung (Linearität, Homoskedastizität, unkorrelierte Fehler, Normalität) kann unter Verwendung der analogen Eigenschaften der Verteilung der studentisierten Residuen getestet werden. Wenn das Modell korrekt angegeben ist, sollten die Residuen für große nahe an den wahren Fehlertermen liegen und eine ähnliche Verteilungsform haben.n

Das Weglassen einer erklärenden Variablen aus dem Regressionsmodell führt dazu , dass die Variablenverzerrung in den Koeffizientenschätzern weggelassen wird, was sich auf die Restverteilung auswirkt. Sowohl der Mittelwert als auch die Varianz des Restvektors werden von der ausgelassenen Variablen beeinflusst. Wenn die ausgelassenen Terme in der Regression wird der Restvektor zu . Wenn die Datenvektoren in der ausgelassenen Matrix IID-Normalvektoren sind und unabhängig von den Fehlertermen, dannZδr=(Ih)(Zδ+ϵ)ZZδ+ϵN(μ1,σ2I) so dass die Restverteilung wird:

r=(Ih)(Zδ+ϵ)N(μ(Ih)1,σ2(Ih)).

Wenn das Modell bereits einen Intercept-Term enthält (dh wenn sich der Einheitsvektor in der Entwurfsmatrix befindet), dann1(Ih)1=0Dies bedeutet, dass die Standardverteilungsform der Residuen erhalten bleibt. Wenn das Modell keinen Intercept-Term enthält, kann die ausgelassene Variable einen Mittelwert ungleich Null für die Residuen ergeben. Wenn die ausgelassene Variable nicht IID-normal ist, kann dies alternativ zu anderen Abweichungen von der Standardrestverteilung führen. In diesem letzteren Fall ist es unwahrscheinlich, dass die Resttests etwas erkennen, das aus dem Vorhandensein einer ausgelassenen Variablen resultiert. Es ist normalerweise nicht möglich zu bestimmen, ob Abweichungen von der theoretischen Restverteilung aufgrund einer ausgelassenen Variablen oder nur aufgrund einer schlecht gestellten Beziehung zu den eingeschlossenen Variablen auftreten (und dies ist wohl auf jeden Fall dasselbe).

Ben - Monica wieder einsetzen
quelle
1
Vielen Dank für die umfassende Antwort. Kann ich fragen, woher du hast ? Es scheint mir , dassr=(Ih)ϵr=YY^=(Ih)Y
mai
1
Seit Sie so dass . hx=x(Ih)x=0r=(Ih)Y=(Ih)(xβ+ϵ)=(Ih)ϵ
Ben - Reinstate Monica
-4

Normalerweise bedeuten die Begriffe Residuen und Fehler dasselbe. Wenn Ihr Modell keine Prädiktoren hat, ist E (Y) tatsächlich der Mittelwert von Y. Bei Prädiktoren (wie in Ihrem Modell) ist E (Y) der Wert von Y, der von jedem X vorhergesagt wird. Die Residuen sind also die Differenz zwischen jedem beobachteten und vorhergesagt Y.

Tim Bednall
quelle
3
"Normalerweise bedeuten die Begriffe Residuen und Fehler dasselbe." Ich denke nicht, dass dies wahr ist - soweit ich verstehe, messen Residuen die Differenz zwischen dem beobachteten Wert und dem vorhergesagten Wert, während Fehler die Differenz zwischen dem beobachteten Wert und dem wahren Mittelwert messen.
mai
1
Genau genommen sind Fehler und Residuen keine Synonyme. Ersteres sind Zufallsvariablen, letzteres sind Realisierungen.
Richard Hardy