Ist studentisierte Residuen v / s standardisierte Residuen im lm-Modell

10

Sind "studentisierte Residuen" und "standardisierte Residuen" in Regressionsmodellen gleich? Ich habe ein lineares Regressionsmodell in R erstellt und wollte den Graphen der v / s-angepassten Werte der studentisierten Residuen zeichnen, fand aber in R keinen automatisierten Weg, dies zu tun.

Angenommen, ich habe ein Modell

library(MASS)

lm.fit <- lm(Boston$medv~(Boston$lstat))

Dann plot(lm.fit)liefert die Verwendung keine grafische Darstellung der studentisierten Residuen gegen die angepassten Werte, liefert jedoch eine grafische Darstellung der standardisierten Residuen gegen die angepassten Werte.

Ich habe es verwendet plot(lm.fit$fitted.values,studres(lm.fit)und es wird das gewünschte Diagramm darstellen. Ich möchte nur bestätigen, dass ich den richtigen Weg gehe und studentisierte und standardisierte Residuen nicht dasselbe sind. Wenn sie unterschiedlich sind, geben Sie bitte eine Anleitung an, um sie und ihre Definitionen zu berechnen. Ich suchte im Internet und fand es etwas verwirrend.

Lerner
quelle
2
+1 Es ist verwirrend, weil (a) diese Arten von Residuen zwar unterschiedlich sind, (b) verschiedene Behörden sich jedoch nicht darüber einig sind, wie sie zu nennen sind! Zum Beispiel ist die RTerminologie das Gegenteil von Montgomery, Peck und Vining (ein beliebtes Regressionslehrbuch, das es seit 35 Jahren gibt). Seien Sie also vorsichtig und lesen Sie die RDokumentation und gegebenenfalls den Quellcode, anstatt sich auf die Bedeutung der Terminologie zu verlassen.
whuber

Antworten:

11

Nein, studentisierte Residuen und standardisierte Residuen sind unterschiedliche (aber verwandte) Konzepte.

R bietet in der Tat eingebaute Funktionen rstandard()und rstudent()als Teil von Einflussmaßnahmen . Das gleiche integrierte Paket bietet viele ähnliche Funktionen für Hebelwirkung, Cooks Abstand usw., die rstudent()im Wesentlichen MASS::studres()mit denen übereinstimmen, die Sie wie folgt selbst überprüfen können:

> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE

Standardisierte Residuen sind eine Möglichkeit, den Fehler für einen bestimmten Datenpunkt zu schätzen, wobei die Hebelwirkung / der Einfluss des Punkts berücksichtigt wird. Diese werden manchmal als "intern studentisierte Residuen" bezeichnet.

ri=eis(ei)=eiMSE(1hii)

Die Motivation hinter standardisierten Residuen ist, dass, obwohl unser Modell Homoskedastizität mit einem iid-Fehlerterm mit fester Varianz , die Verteilung, die Residuen nicht iid sein können, weil die Die Summe der Residuen ist immer genau Null.ϵiN(0,σ2)ei

Studentisierte Residuen für einen bestimmten Datenpunkt werden aus einem Modell berechnet, das an jeden anderen Datenpunkt mit Ausnahme des betreffenden Datenpunkts angepasst ist. Diese werden verschiedentlich als "extern studentisierte Residuen", "gelöschte Residuen" oder "Jackknifed-Residuen" bezeichnet.

Dies klingt rechenintensiv (es klingt so, als müssten wir für jeden Punkt ein neues Modell anpassen), aber tatsächlich gibt es eine Möglichkeit, es nur aus dem Originalmodell zu berechnen, ohne es neu anzupassen. Wenn das standardisierte Residuum , ist das studentisierte Residuum :riti

ti=ri(nk2nk1ri2)1/2,

Die Motivation für studentisierte Residuen liegt in ihrer Verwendung bei Ausreißertests. Wenn wir vermuten, dass ein Punkt ein Ausreißer ist, wurde er per Definition nicht aus dem angenommenen Modell generiert. Daher wäre es ein Fehler - ein Verstoß gegen Annahmen -, diesen Ausreißer in die Anpassung des Modells einzubeziehen. Studentisierte Residuen werden häufig bei der praktischen Erkennung von Ausreißern verwendet.

Studentisierte Residuen haben auch die wünschenswerte Eigenschaft, dass für jeden Datenpunkt die Verteilung des Residuums die t-Verteilung des Schülers ist, vorausgesetzt, die Normalitätsannahmen des ursprünglichen Regressionsmodells wurden erfüllt. (Standardisierte Residuen haben keine so schöne Verteilung.)

Um Bedenken auszuräumen, dass die R-Bibliothek möglicherweise einer anderen als der oben genannten Nomenklatur folgt, heißt es in der R-Dokumentation ausdrücklich, dass sie "standardisiert" und "studentisiert" in genau demselben oben beschriebenen Sinne verwenden.

Funktioniert rstandardund rstudentgibt die standardisierten bzw. studentisierten Residuen an. (Diese normalisieren die Residuen erneut, um eine Einheitsvarianz zu erhalten, wobei ein Gesamt- bzw. ein Auslassmaß der Fehlervarianz verwendet wird.)

Olooney
quelle