Im Zusammenhang mit der OLS-Regression verstehe ich, dass ein Residuendiagramm (gegen angepasste Werte) herkömmlicherweise betrachtet wird, um auf konstante Varianz zu testen und die Modellspezifikation zu bewerten. Warum werden die Residuen gegen die Anpassungen und nicht gegen die Werte aufgetragen ? Inwiefern unterscheiden sich die Informationen von diesen beiden Darstellungen?
Ich arbeite an einem Modell, das die folgenden Residuendiagramme erstellt hat:
Das Diagramm gegenüber den angepassten Werten sieht also auf einen Blick gut aus, aber das zweite Diagramm gegenüber dem Wert weist ein Muster auf. Ich frage mich, warum sich ein so ausgeprägtes Muster nicht auch im Residuum-vs-Fit-Diagramm manifestieren würde.
Ich suche keine Hilfe bei der Diagnose von Problemen mit dem Modell, sondern versuche nur, die Unterschiede (im Allgemeinen) zwischen (1) Residuum-Fit-Diagramm und (2) Residuum- Diagramm zu verstehen .
Ich bin mir sicher, dass das Fehlermuster in der zweiten Tabelle auf ausgelassene Variablen zurückzuführen ist, die den DV beeinflussen. Ich arbeite derzeit daran, diese Daten zu erhalten, von denen ich erwarte, dass sie die Gesamtanpassung und Spezifikation unterstützen. Ich arbeite mit Immobiliendaten: DV = Verkaufspreis. IVs: qm Haus, # Garagenplätze, Baujahr, Baujahr .
Antworten:
Durch die Konstruktion ist der Fehlerterm in einem OLS-Modell nicht mit den beobachteten Werten der X-Kovariaten korreliert. Dies gilt immer für die beobachteten Daten, auch wenn das Modell verzerrte Schätzungen liefert, die nicht die wahren Werte eines Parameters widerspiegeln, da eine Annahme des Modells verletzt wird (wie ein Problem mit ausgelassenen Variablen oder ein Problem mit umgekehrter Kausalität). Die vorhergesagten Werte sind vollständig eine Funktion dieser Kovariaten, daher sind sie auch nicht mit dem Fehlerterm korreliert. Wenn Sie also Residuen gegen vorhergesagte Werte plotten, sollten sie immer zufällig aussehen, da sie durch die Konstruktion des Schätzers tatsächlich nicht korreliert sind. Im Gegensatz dazu ist es durchaus möglich (und wahrscheinlich), dass der Fehlerterm eines Modells in der Praxis mit Y korreliert. Beispielsweise ist bei einer dichotomen X-Variablen das wahre Y umso weiter von einem der beiden entfernt
E(Y | X = 1)
oder jeE(Y | X = 0)
größer der Rest ist. Hier ist dieselbe Intuition mit simulierten Daten in R, in der wir wissen, dass das Modell unvoreingenommen ist, weil wir den Datenerzeugungsprozess steuern:Wir erhalten das gleiche Ergebnis der Nullkorrelation mit einem voreingenommenen Modell, zum Beispiel wenn wir es weglassen
x1.
quelle
Zwei Tatsachen, von denen ich annehme, dass Sie mit mir zufrieden sind:
Dann:
Während also der Einbau Wert mit dem Rest nicht korreliert ist, die Beobachtung ist .
Tatsächlich hängt dies damit zusammen, dass sowohl die Beobachtung als auch das Residuum mit dem Fehlerterm zusammenhängen.
Dies macht es normalerweise etwas schwieriger, das Restdiagramm für diagnostische Zwecke zu verwenden.
quelle