Der Grund, warum ich dies frage, ist, dass es scheint, dass intern studentisierte Residuen das gleiche Muster haben wie rohe geschätzte Residuen. Es wäre toll, wenn jemand eine Erklärung anbieten könnte.
Angenommen, ein Regressionsmodell mit der Entwurfsmatrix (eine Spalte gefolgt von Ihren Prädiktoren). Vorhersagen (wobei die "Hutmatrix" ist) und Residuen . Das Regressionsmodell geht davon aus, dass die wahren Fehler alle dieselbe Varianz (Homoskedastizität) aufweisen:
Die Kovarianzmatrix der Residuen ist . Dies bedeutet, dass die rohen Residuen unterschiedliche Varianzen haben - die Diagonale der Matrix . Die diagonalen Elemente von sind die .
Die wahrhaft standardisierten Residuen mit der Varianz 1 sind somit . Das Problem ist, dass die Fehlervarianz unbekannt ist und intern / extern studentisierte Residuen aus bestimmten Auswahlmöglichkeiten für eine Schätzung resultieren .
Da erwartet wird, dass rohe Residuen heteroskedastisch sind, selbst wenn das homoskedastisch ist, sind die rohen Residuen theoretisch weniger gut geeignet, um Probleme mit der Annahme der Homoskedastizität zu diagnostizieren als standardisierte oder studentisierte Residuen.
Auf welchen Datentypen haben Sie Ihre Testplots erstellt? Wenn alle Annahmen zutreffen (oder nahe kommen), würde ich keinen großen Unterschied zwischen den rohen und den studentisierten Residuen erwarten. Der Hauptvorteil besteht darin, dass es sehr einflussreiche Punkte gibt. Betrachten Sie diese (simulierten) Daten, die einen positiven linearen Trend und einen sehr einflussreichen Ausreißer aufweisen:
Hier ist die grafische Darstellung der angepassten Werte gegen die rohen Residuen:
Beachten Sie, dass der Wert des Residuums unseres Einflusspunkts näher an 0 liegt als die minimalen und maximalen Residuen der übrigen Punkte (nicht in den 3 extremsten rohen Residuen).
Hier ist nun die Darstellung mit den standardisierten (intern studentisierten) Residuen:
In diesem Diagramm fällt das standardisierte Residuum auf, weil sein Einfluss berücksichtigt wurde.
In diesem einfachen Beispiel ist es leicht zu sehen, was los ist, aber was wäre, wenn wir mehr als 1 Variable und einen Punkt hätten, der sehr einflussreich, aber in den zweidimensionalen Darstellungen nicht ungewöhnlich war? Es wäre aus Plots von rohen Residuen nicht offensichtlich, aber die studentisierten Residuen würden dieses Residuum als extremer zeigen.x
quelle