Wie hängen Residuen mit den zugrunde liegenden Störungen zusammen?

9

Bei der Methode der kleinsten Quadrate möchten wir die unbekannten Parameter im Modell schätzen:

Y.j=α+βxj+εj(j=1 ...n)

Sobald wir dies getan haben (für einige beobachtete Werte), erhalten wir die angepasste Regressionslinie:

Y.j=α^+β^x+ej(j=1,...n)

Jetzt wollen wir natürlich einige Diagramme überprüfen, um sicherzustellen, dass die Annahmen erfüllt sind. Angenommen, Sie möchten die Homoskedastizität überprüfen. Dazu überprüfen wir jedoch tatsächlich die Residuen . Angenommen, Sie untersuchen das Diagramm der Residuen gegen die vorhergesagten Werte. Wenn dies zeigt, dass Heteroskedastizität offensichtlich ist, wie hängt das dann mit dem Störungsterm ε j zusammen ? Bedeutet Heteroskedastizität in den Residuen eine störungsbedingte Heteroskedastizität? ejεj

Danny
quelle

Antworten:

3

Der einfachste Weg , um darüber nachzudenken , ist , dass Sie Ihre RAW - Residuen ( ) sind Schätzungen der entsprechenden Störungen ( ε j = e j ). Es gibt jedoch einige zusätzliche Komplexitäten. Obwohl wir im Standard-OLS-Modell davon ausgehen, dass die Fehler / Störungen unabhängig sind, können die Residuen nicht alle sein. Im Allgemeinen können nur N - p - 1 Residuen unabhängig sein, da Sie bei der Schätzung des Mittelwertmodells p - 1 Freiheitsgrade verwendet haben und die Residuen auf die Summe beschränkt sindej=yj- -y^jε^j=ejN.- -p- -1p- -1 . Außerdem ist die Standardabweichung der rohen Residuen nicht wirklich konstant. Im Allgemeinen wird die Regressionslinie so angepasst, dass sie im Durchschnitt näher an den Punkten mit größerer Hebelwirkung liegt. Infolgedessen ist die Standardabweichung der Residuen für diese Punkte kleiner als die von Punkten mit niedriger Hebelwirkung. (Um mehr darüber zuerfahren, kann es hilfreich sein, die Antworten hier zu lesen:Interpretation von plot.lm ()und / oder hier:Wieführe ich eine Restanalysefür binäre / dichotome unabhängige Prädiktoren in der linearen Regression durch?)0

gung - Monica wieder einsetzen
quelle
3
Zur Verdeutlichung können höchstens Np-1-Residuen unabhängig sein, aber normalerweise sind sie alle korreliert. Stattdessen gibt es lineare Transformationen von ihnen, die Np-1-unabhängige Komponenten haben können.
Glen_b -Reinstate Monica
@Glen_b, guter Punkt.
Gung - Reinstate Monica
8

Die Beziehung zwischen ε und ε ist:ε^ε

ε^=(ich- -H.)ε

wobei , die Hutmatrix, X ( X T X ) - 1 X T ist .H.X.(X.T.X.)- -1X.T.

Welches ist zu sagen , dass ε i eine lineare Kombination aller Fehler, aber in der Regel der meisten Gewicht fällt auf dem i - ten ein.ε^ichich

Hier ist ein Beispiel unter Verwendung des carsDatensatzes in R. Betrachten Sie den lila markierten Punkt:

Geben Sie hier die Bildbeschreibung ein

ichε^ich0,98εich+jichwjεjwj

Geben Sie hier die Bildbeschreibung ein

Wir können das umschreiben als:

ε^ich0,98εich+ηich

oder allgemeiner

ε^ich=(1- -hichich)εich+ηich

hichichichH.wjhichj

N.(0,σ2)ich

Das heißt, bei gut erzogenen Regressionen können Residuen meist wie eine mäßig verrauschte Schätzung des nicht beobachtbaren Fehlerausdrucks behandelt werden. Wenn wir Punkte betrachten, die weiter vom Zentrum entfernt sind, funktionieren die Dinge etwas weniger gut (der Rest wird weniger auf den Fehler gewichtet und die Gewichte auf die anderen Fehler werden weniger gleichmäßig).

X.

Glen_b - Monica neu starten
quelle
2
H.εichH.
nH.n
np/.np