Ich möchte einen Shapiro-Wilk-W-Test und einen Kolmogorov-Smirnov-Test mit den Residuen eines linearen Modells durchführen, um die Normalität zu überprüfen. Ich habe mich nur gefragt, welche Residuen dafür verwendet werden sollten - die rohen Residuen, die Pearson-Residuen, studentisierte Residuen oder standardisierte Residuen? Für einen Shapiro-Wilk-W-Test scheinen die Ergebnisse für die rohen und Pearson-Residuen identisch zu sein, für die anderen jedoch nicht.
fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143
Dieselbe Frage für KS und auch, ob die Residuen gegen eine Normalverteilung (pnorm) getestet werden sollen wie in
ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563
oder eine t-student Verteilung mit nk-2 Freiheitsgraden, wie in
ks.test(res3, "pt",df=nrow(mtcars)-2-2)
Irgendwelche Ratschläge vielleicht? Was sind die empfohlenen Werte für die Teststatistik W (> 0,9?) Und D, damit die Verteilung der Normalverteilung ausreichend nahe kommt und Ihre Schlussfolgerung nicht zu stark beeinflusst?
Berücksichtigt dieser Ansatz schließlich die Unsicherheit der angepassten lm-Koeffizienten oder wäre die Funktion cumres()
im Paket gof()
in dieser Hinsicht besser?
Prost, Tom
quelle
Antworten:
Wuchs zu lang für einen Kommentar.
Für ein gewöhnliches Regressionsmodell (wie es von angepasst wird
lm
) gibt es keinen Unterschied zwischen den ersten beiden von Ihnen berücksichtigten Residuentypen.type="pearson"
ist für nicht-Gaußsche GLMs relevant, entspricht jedoch denresponse
Gaußschen Modellen.Die Beobachtungen, auf die Sie Ihre Tests anwenden (eine Form von Residuen), sind nicht unabhängig, sodass die üblichen Statistiken nicht die richtige Verteilung aufweisen. Streng genommen ist keines der Residuen, die Sie in Betracht ziehen, genau normal, da Ihre Daten niemals genau normal sind. [Formale Tests beantworten die falsche Frage - eine relevantere Frage wäre: "Inwieweit wirkt sich diese Nicht-Normalität auf meine Schlussfolgerung aus?", Eine Frage, die von den üblichen Tests auf Angemessenheitshypothesen nicht beantwortet wird.]
Selbst wenn Ihre Daten genau normal wären, wäre weder die dritte noch die vierte Art von Residuen genau normal. Nichtsdestotrotz ist es weitaus üblicher, diese zu untersuchen (etwa durch QQ-Diagramme) als die rohen Residuen.
quelle