Betrachten Sie die folgende Abbildung aus Faraways linearen Modellen mit R (2005, S. 59).
Das erste Diagramm scheint darauf hinzudeuten, dass die Residuen und die angepassten Werte nicht korreliert sind, da sie in einem homoskedastischen linearen Modell mit normalverteilten Fehlern vorliegen sollten. Daher legen die zweite und dritte Kurve, die die Abhängigkeit zwischen den Residuen und den angepassten Werten anzuzeigen scheinen, ein anderes Modell nahe.
Aber warum legt die zweite Darstellung, wie Faraway bemerkt, ein heteroskedastisches lineares Modell nahe, während die dritte Darstellung ein nichtlineares Modell nahe legt?
Das zweite Diagramm scheint darauf hinzudeuten, dass der Absolutwert der Residuen stark positiv mit den angepassten Werten korreliert, wohingegen im dritten Diagramm kein solcher Trend erkennbar ist. Also, wenn es der Fall wäre, theoretisch in einem heteroskedastischen linearen Modell mit normalverteilten Fehlern
(wobei der Ausdruck links die Varianz-Kovarianz-Matrix zwischen den Residuen und den angepassten Werten ist) Dies würde erklären, warum der zweite und dritte Plot mit Faraways Interpretationen übereinstimmen.
Aber ist das der Fall? Wenn nicht, wie kann Faraways Interpretation der zweiten und dritten Handlung sonst gerechtfertigt werden? Warum zeigt der dritte Plot auch notwendigerweise Nichtlinearität an? Ist es nicht möglich, dass es linear ist, die Fehler aber entweder nicht normal verteilt sind oder dass sie normal verteilt sind, aber nicht um Null zentriert sind?
quelle
Antworten:
Nicht wirklich *, in diesen Situationen sehen die Diagramme anders aus als das dritte Diagramm.
(ii) Wenn die Fehler nicht normal verteilt sind, könnte das Punktmuster an einer anderen Stelle als der Mittellinie am dichtesten sein (wenn die Daten beispielsweise verzerrt wären), aber der lokale mittlere Restwert wäre immer noch nahe 0.
Hier stellen die violetten Linien immer noch einen (sehr) ungefähren 95% -Intervall dar, aber es ist nicht mehr symmetrisch. (Ich beschreibe ein paar Probleme, um den grundlegenden Punkt hier nicht zu verschleiern.)
quelle
Sie schrieben
Es scheint nicht so, es tut es. Und das bedeutet heteroskedastisch.
Dann geben Sie eine Matrix aller Einsen an, was irrelevant ist; Korrelation kann existieren und kleiner als 1 sein.
Dann schreibst du
Sie zentrieren sich um 0. Die Hälfte oder so liegt unter 0, die Hälfte darüber. Es ist schwieriger zu sagen, ob sie normalerweise in diesem Diagramm verteilt sind, aber ein anderes Diagramm, das normalerweise empfohlen wird, ist ein normales Quantil-Diagramm der Residuen, und das würde zeigen, ob sie normal sind oder nicht.
quelle