Residuendiagramme: Warum Diagramm gegen angepasste Werte, nicht beobachtete Werte?

20

Im Zusammenhang mit der OLS-Regression verstehe ich, dass ein Residuendiagramm (gegen angepasste Werte) herkömmlicherweise betrachtet wird, um auf konstante Varianz zu testen und die Modellspezifikation zu bewerten. Warum werden die Residuen gegen die Anpassungen und nicht gegen die Werte aufgetragen ? Inwiefern unterscheiden sich die Informationen von diesen beiden Darstellungen?Y.

Ich arbeite an einem Modell, das die folgenden Residuendiagramme erstellt hat:

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben

Das Diagramm gegenüber den angepassten Werten sieht also auf einen Blick gut aus, aber das zweite Diagramm gegenüber dem Wert weist ein Muster auf. Ich frage mich, warum sich ein so ausgeprägtes Muster nicht auch im Residuum-vs-Fit-Diagramm manifestieren würde.Y.

Ich suche keine Hilfe bei der Diagnose von Problemen mit dem Modell, sondern versuche nur, die Unterschiede (im Allgemeinen) zwischen (1) Residuum-Fit-Diagramm und (2) Residuum- Diagramm zu verstehen . Y.

Ich bin mir sicher, dass das Fehlermuster in der zweiten Tabelle auf ausgelassene Variablen zurückzuführen ist, die den DV beeinflussen. Ich arbeite derzeit daran, diese Daten zu erhalten, von denen ich erwarte, dass sie die Gesamtanpassung und Spezifikation unterstützen. Ich arbeite mit Immobiliendaten: DV = Verkaufspreis. IVs: qm Haus, # Garagenplätze, Baujahr, Baujahr . 2

Mac
quelle
3
Ich habe mir erlaubt, den Titel ein wenig genauer auf Ihre Absicht abzustimmen. Selbst unter Ökonomen (Sie mögen einer sein) hat "IV" eine andere Bedeutung der instrumentellen Variablen, obwohl es in diesem Fall keine Mehrdeutigkeit gibt. Für eine bessere Kommunikation über mehrere statistische Wissenschaften hinweg raten einige von uns von lokal verwendeten Abkürzungen wie DV (was für manche Menschen immer noch Deo volente bedeutet ) und IV ab, um evokative Begriffe wie Reaktion oder Ergebnis einerseits und Prädiktor oder Kovariate andererseits zu bevorzugen andere. Ich weiß, dass dies ein Detail in Ihrer Frage ist, aber es wurde gut beantwortet.
Nick Cox

Antworten:

10

Durch die Konstruktion ist der Fehlerterm in einem OLS-Modell nicht mit den beobachteten Werten der X-Kovariaten korreliert. Dies gilt immer für die beobachteten Daten, auch wenn das Modell verzerrte Schätzungen liefert, die nicht die wahren Werte eines Parameters widerspiegeln, da eine Annahme des Modells verletzt wird (wie ein Problem mit ausgelassenen Variablen oder ein Problem mit umgekehrter Kausalität). Die vorhergesagten Werte sind vollständig eine Funktion dieser Kovariaten, daher sind sie auch nicht mit dem Fehlerterm korreliert. Wenn Sie also Residuen gegen vorhergesagte Werte plotten, sollten sie immer zufällig aussehen, da sie durch die Konstruktion des Schätzers tatsächlich nicht korreliert sind. Im Gegensatz dazu ist es durchaus möglich (und wahrscheinlich), dass der Fehlerterm eines Modells in der Praxis mit Y korreliert. Beispielsweise ist bei einer dichotomen X-Variablen das wahre Y umso weiter von einem der beiden entferntE(Y | X = 1)oder je E(Y | X = 0)größer der Rest ist. Hier ist dieselbe Intuition mit simulierten Daten in R, in der wir wissen, dass das Modell unvoreingenommen ist, weil wir den Datenerzeugungsprozess steuern:

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

Wir erhalten das gleiche Ergebnis der Nullkorrelation mit einem voreingenommenen Modell, zum Beispiel wenn wir es weglassen x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero
Michael
quelle
2
Hilfreich, aber der erste Satz könnte der Klarheit halber umgeschrieben werden. "Konstruktion" erzeugt die Residuen; Die Fehlerbedingung wird vor der Berechnung als vorhanden angesehen. Ebenso würde ich sagen, dass es die Schätzungen sind, die erstellt werden, nicht der Schätzer, der die Methode ist, die verwendet wird, um sie zu erstellen.
Nick Cox
Aber warum schauen wir uns dann überhaupt das Residuendiagramm an (vs. Fits)? Welchen diagnostischen Zweck hat diese Handlung? Ich bin neu auf der Website. Muss ich Michael taggen oder bekommt er diesen Kommentar automatisch? Mein Kommentar würde auch auf @ Glen_b Antwort unten zutreffen. Beide Antworten helfen mir beim Verständnis. Vielen Dank.
Mac,
... weil sie andere Strukturen aufweisen können. Die fehlende Korrelation zwischen Residuum und Fit bedeutet nicht, dass auch andere Dinge nicht passieren können. Wenn Sie glauben, dass Ihr Modell perfekt ist, werden Sie nicht glauben, dass dies möglich ist. In der Praxis müssen Sie nach anderen Arten von Strukturen suchen.
Nick Cox
@Mac, ich werde ehrlich sein und sagen, dass ich mir diese Handlungen nie anschaue. Wenn Sie versuchen, eine kausale Schlussfolgerung zu ziehen, sollten Sie ausgelassene Variablenprobleme durchdenken und Kausalitätsprobleme konzeptionell umkehren. Beide Probleme könnten auftreten, und Sie wären nicht in der Lage, sie aus diesen Diagrammen zu betrachten, da es sich um Probleme der Beobachtungsäquivalenz handelt. Wenn Sie sich nur um Vorhersagen kümmern, sollten Sie sich überlegen, wie gut die Vorhersagen Ihres Modells auch außerhalb der Stichprobe abschneiden, und testen, ob sie nicht stichprobenartig sind (andernfalls handelt es sich nicht um Vorhersagen).
Michael
@NickCox Ja, ich meine den vom Modell geschätzten Fehlerterm und nicht den wahren Wert des Parameters.
Michael
19

Zwei Tatsachen, von denen ich annehme, dass Sie mit mir zufrieden sind:

yich=y^ich+e^ich

Cov(y^ich,e^ich)=0

Dann:

Cov(yich,e^ich)=Cov(y^ich+e^ich,e^ich)

=Cov(y^ich,e^ich)+Cov(e^ich,e^ich)

=0+σe2

=σe2

Während also der Einbau Wert mit dem Rest nicht korreliert ist, die Beobachtung ist .

Tatsächlich hängt dies damit zusammen, dass sowohl die Beobachtung als auch das Residuum mit dem Fehlerterm zusammenhängen.

Dies macht es normalerweise etwas schwieriger, das Restdiagramm für diagnostische Zwecke zu verwenden.

Glen_b - Setzen Sie Monica wieder ein
quelle