Warum basiert die Diagnose auf Residuen?
Da sich viele der Annahmen auf die bedingte Verteilung von beziehen , nicht auf seine bedingungslose Verteilung. Dies entspricht einer Annahme über die Fehler, die wir anhand der Residuen schätzen.Y
Bei einer einfachen linearen Regression möchte man oft überprüfen, ob bestimmte Annahmen erfüllt sind, um Rückschlüsse ziehen zu können (z. B. sind Residuen normalverteilt).
Bei der tatsächlichen Normalitätsannahme geht es nicht um die Residuen, sondern um den Fehlerterm. Am nächsten an denen, die Sie haben, sind die Residuen, weshalb wir sie überprüfen.
Ist es sinnvoll, die Annahmen zu überprüfen, indem geprüft wird, ob die angepassten Werte normal verteilt sind?
Nein. Die Verteilung der angepassten Werte hängt vom Muster der . Es sagt Ihnen überhaupt nicht viel über die Annahmen.x
Zum Beispiel habe ich gerade eine Regression für simulierte Daten durchgeführt, für die alle Annahmen korrekt angegeben wurden. Zum Beispiel wurde die Normalität der Fehler erfüllt. Folgendes passiert, wenn wir versuchen, die Normalität der angepassten Werte zu überprüfen:
Sie sind eindeutig nicht normal; Tatsächlich sehen sie bimodal aus. Warum? Nun, weil die Verteilung der angepassten Werte vom Muster des x abhängtx . Die Fehler waren normal, aber die angepassten Werte können fast alles sein.
yxxy
y .
Yy−y−x−
Was sind die Annahmen, wie überprüfen wir sie und wann müssen wir sie treffen?
(Es gibt tatsächlich einige andere Annahmen, die ich nicht erwähnt habe, wie z. B. additive Fehler, dass die Fehler einen Mittelwert von Null haben, und so weiter.)
Wenn Sie nur daran interessiert sind, die Anpassung der Linie der kleinsten Quadrate zu schätzen und nicht an Standardfehlern, müssen Sie die meisten dieser Annahmen nicht treffen. Beispielsweise beeinflusst die Verteilung von Fehlern die Inferenz (Tests und Intervalle) und kann die Effizienz der Schätzung beeinflussen, aber die LS-Linie ist beispielsweise immer noch am besten linear unverzerrt. Wenn die Verteilung nicht so schlecht und nicht normal ist, dass alle linearen Schätzer schlecht sind, ist es nicht unbedingt ein großes Problem, wenn die Annahmen über den Fehlerterm nicht zutreffen.