Heteroskedastizität und Restnormalität

12

Ich habe eine lineare Regression, die ziemlich gut ist, denke ich (es ist für ein Universitätsprojekt, also muss ich nicht wirklich sehr genau sein).

Punkt ist, wenn ich die Residuen gegen vorhergesagte Werte zeichne, gibt es (laut meinem Lehrer) einen Hinweis auf Heteroskedastizität.

Aber wenn ich das QQ-Diagramm der Residuen zeichne, ist klar, dass sie normal verteilt sind. Darüber hinaus hat der Shapiro-Test für die Residuen einen Wert von 0,8 , sodass ich glaube, dass es keinen Zweifel gibt, dass die Residuen tatsächlich normal verteilt sind.p0,8

Frage: Wie kann es bei vorhergesagten Werten zu einer Heteroskedastizität kommen, wenn die Residuen normal verteilt sind?

Ameise
quelle
1
ncvTestRncvTest(fit)p

Antworten:

16

Eine Möglichkeit, sich dieser Frage zu nähern, besteht darin, sie umgekehrt zu betrachten: Wie können wir mit normalverteilten Residuen beginnen und sie heteroskedastisch anordnen? Unter diesem Gesichtspunkt wird die Antwort offensichtlich: Verknüpfen Sie die kleineren Residuen mit den kleineren vorhergesagten Werten.

Zur Veranschaulichung hier eine explizite Konstruktion.

Zahl

Die Daten links sind im Vergleich zur linearen Anpassung (rot dargestellt) eindeutig heteroskedastisch. Dies wird durch die Residuen gegenüber dem vorhergesagten Diagramm auf der rechten Seite nach Hause getrieben . Aber - konstruktionsbedingt - ist die ungeordnete Menge von Residuen nahezu normalverteilt, wie das Histogramm in der Mitte zeigt. (Der p-Wert im Shapiro-Wilk-Normalitätstest beträgt 0,60 und wird mit dem RBefehl ermittelt shapiro.test(residuals(fit)), der nach dem Ausführen des folgenden Codes ausgegeben wird.)

Auch echte Daten können so aussehen. Die Moral ist, dass Heteroskedastizität eine Beziehung zwischen Restgröße und Vorhersagen charakterisiert, während Normalität nichts darüber aussagt, wie sich die Residuen auf etwas anderes beziehen.


Hier ist der RCode für diese Konstruktion.

set.seed(17)
n <- 256
x <- (1:n)/n                       # The set of x values
e <- rnorm(n, sd=1)                # A set of *normally distributed* values
i <- order(runif(n, max=dnorm(e))) # Put the larger ones towards the end on average
y <- 1 + 5 * x + e[rev(i)]         # Generate some y values plus "error" `e`.
fit <- lm(y ~ x)                   # Regress `y` against `x`.
par(mfrow=c(1,3))                  # Set up the plots ...
plot(x,y, main="Data", cex=0.8)
abline(coef(fit), col="Red")
hist(residuals(fit), main="Residuals")
plot(predict(fit), residuals(fit), cex=0.8, main="Residuals vs. Predicted")
whuber
quelle
2
OK, Sie sagen also, wenn ich niedrige Residuen mit hohen vorhergesagten Werten assoziiere, kann Heteroskedastizität auftreten, selbst wenn Residuen normal verteilt sind? Ich denke, ich habe es, obwohl ich wirklich mehr darüber nachdenken sollte. Trotzdem danke!
Ameise
... oder niedrige Residuen mit niedrigen vorhergesagten Werten (wie im Beispiel hier) oder sogar auf komplexere Weise. Beispielsweise liegt eine Heteroskedastizität vor, wenn die durchschnittliche Größe der Residuen mit dem vorhergesagten Wert schwingt. (Die meisten formalen Tests der Heteroskedastizität werden dies nicht erkennen, aber die üblichen diagnostischen Diagramme werden es deutlich zeigen.)
whuber
0

Bei der Regression der gewichteten kleinsten Quadrate (WLS) sind die Zufallsfaktoren der geschätzten Residuen, die Sie möglicherweise sehen möchten, normal verteilt, obwohl dies oft nicht besonders wichtig ist. Die geschätzten Residuen können berücksichtigt werden, wie in einem einfachen Regressionsfall (ein Regressor und durch den Ursprung) am Ende von Seite 1 und in der unteren Hälfte der Seiten 2 und 7 in https://www.researchgate.net/publication gezeigt / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys Auf jeden Fall kann dies zeigen, wo Normalität ins Bild kommen kann.

Jim Knaub
quelle
Willkommen auf der Website @JimKnaub. Wir würden uns freuen, wenn Sie uns bei gelegentlichen Fragen zur Verfügung stellen würden. Warum registrieren Sie nicht Ihr Konto? Wie das geht, erfahren Sie im Abschnitt Mein Konto in unserer Hilfe . Da Sie neu hier sind, möchten Sie vielleicht an unserer Tour teilnehmen , die Informationen für neue Benutzer enthält.
Gung - Reinstate Monica
3
Wir versuchen, ein permanentes Repository mit hochwertigen statistischen Informationen in Form von Fragen und Antworten aufzubauen. Daher sind wir vorsichtig bei Antworten, die aufgrund von Linkrot von Links abhängen. Können Sie ein vollständiges Zitat und eine Zusammenfassung der Informationen (z. B. Abbildungen / Erklärungen) über den Link veröffentlichen, damit die Informationen auch dann nützlich bleiben, wenn der Link nicht mehr funktioniert?
Gung - Reinstate Monica