Ich habe eine lineare Regression, die ziemlich gut ist, denke ich (es ist für ein Universitätsprojekt, also muss ich nicht wirklich sehr genau sein).
Punkt ist, wenn ich die Residuen gegen vorhergesagte Werte zeichne, gibt es (laut meinem Lehrer) einen Hinweis auf Heteroskedastizität.
Aber wenn ich das QQ-Diagramm der Residuen zeichne, ist klar, dass sie normal verteilt sind. Darüber hinaus hat der Shapiro-Test für die Residuen einen Wert von 0,8 , sodass ich glaube, dass es keinen Zweifel gibt, dass die Residuen tatsächlich normal verteilt sind.
Frage: Wie kann es bei vorhergesagten Werten zu einer Heteroskedastizität kommen, wenn die Residuen normal verteilt sind?
ncvTest
R
ncvTest(fit)
Antworten:
Eine Möglichkeit, sich dieser Frage zu nähern, besteht darin, sie umgekehrt zu betrachten: Wie können wir mit normalverteilten Residuen beginnen und sie heteroskedastisch anordnen? Unter diesem Gesichtspunkt wird die Antwort offensichtlich: Verknüpfen Sie die kleineren Residuen mit den kleineren vorhergesagten Werten.
Zur Veranschaulichung hier eine explizite Konstruktion.
Die Daten links sind im Vergleich zur linearen Anpassung (rot dargestellt) eindeutig heteroskedastisch. Dies wird durch die Residuen gegenüber dem vorhergesagten Diagramm auf der rechten Seite nach Hause getrieben . Aber - konstruktionsbedingt - ist die ungeordnete Menge von Residuen nahezu normalverteilt, wie das Histogramm in der Mitte zeigt. (Der p-Wert im Shapiro-Wilk-Normalitätstest beträgt 0,60 und wird mit dem
R
Befehl ermitteltshapiro.test(residuals(fit))
, der nach dem Ausführen des folgenden Codes ausgegeben wird.)Auch echte Daten können so aussehen. Die Moral ist, dass Heteroskedastizität eine Beziehung zwischen Restgröße und Vorhersagen charakterisiert, während Normalität nichts darüber aussagt, wie sich die Residuen auf etwas anderes beziehen.
Hier ist der
R
Code für diese Konstruktion.quelle
Bei der Regression der gewichteten kleinsten Quadrate (WLS) sind die Zufallsfaktoren der geschätzten Residuen, die Sie möglicherweise sehen möchten, normal verteilt, obwohl dies oft nicht besonders wichtig ist. Die geschätzten Residuen können berücksichtigt werden, wie in einem einfachen Regressionsfall (ein Regressor und durch den Ursprung) am Ende von Seite 1 und in der unteren Hälfte der Seiten 2 und 7 in https://www.researchgate.net/publication gezeigt / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys Auf jeden Fall kann dies zeigen, wo Normalität ins Bild kommen kann.
quelle