Welche Vorteile bieten „intern studentisierte Residuen“ gegenüber geschätzten Roh-Residuen hinsichtlich der Diagnose potenzieller einflussreicher Datenpunkte?

10

Der Grund, warum ich dies frage, ist, dass es scheint, dass intern studentisierte Residuen das gleiche Muster haben wie rohe geschätzte Residuen. Es wäre toll, wenn jemand eine Erklärung anbieten könnte.

Scortchi - Monica wieder einsetzen
quelle

Antworten:

13

Angenommen, ein Regressionsmodell mit der Entwurfsmatrix (eine Spalte gefolgt von Ihren Prädiktoren). Vorhersagen (wobei die "Hutmatrix" ist) und Residuen . Das Regressionsmodell geht davon aus, dass die wahren Fehler alle dieselbe Varianz (Homoskedastizität) aufweisen:y=Xβ+ϵX1y^=X(XX)1Xy=HyHe=yy^ϵ

Homoskedastizität

Die Kovarianzmatrix der Residuen ist . Dies bedeutet, dass die rohen Residuen unterschiedliche Varianzen haben - die Diagonale der Matrix . Die diagonalen Elemente von sind die .V(e)=σ2(IH)eiσ2(1hii)σ2(IH)Hhii

Die wahrhaft standardisierten Residuen mit der Varianz 1 sind somit . Das Problem ist, dass die Fehlervarianz unbekannt ist und intern / extern studentisierte Residuen aus bestimmten Auswahlmöglichkeiten für eine Schätzung resultieren .e/(σ1hii)σ e/(σ^1hii)σ^

Da erwartet wird, dass rohe Residuen heteroskedastisch sind, selbst wenn das homoskedastisch ist, sind die rohen Residuen theoretisch weniger gut geeignet, um Probleme mit der Annahme der Homoskedastizität zu diagnostizieren als standardisierte oder studentisierte Residuen.ϵ

Karakal
quelle
Die definitorischen Unterschiede zwischen den beiden verschiedenen Arten von Residuen (sowie extern studentisierten Residuen) sind mir klar. In der Praxis glaube ich jedoch nicht, dass ich auf Fälle gestoßen bin (zumindest mit meinen eigenen Daten), in denen intern studentisierte Residuen im Vergleich zu geschätzten Residuen ein unterschiedliches Muster aufweisen. Andererseits können extern studentisierte Residuen möglicherweise ein anderes Muster aufweisen als geschätzte Residuen. * Ich sage nicht, dass die beiden Arten von Residuen gleich sind. Ich beziehe mich auf ihre allgemeinen Muster.
@AlexH. Ich stimme zu, dass der erklärte Vorteil, den ich hinzugefügt habe, theoretisch ist . Die Konstruktion einer simulierten empirischen Situation, in der rohe Residuen irreführend sind und studentisierte Residuen ein genaueres Bild der bedingten Verteilungen liefern, wäre eine gute Ergänzung.
Caracal
12

Auf welchen Datentypen haben Sie Ihre Testplots erstellt? Wenn alle Annahmen zutreffen (oder nahe kommen), würde ich keinen großen Unterschied zwischen den rohen und den studentisierten Residuen erwarten. Der Hauptvorteil besteht darin, dass es sehr einflussreiche Punkte gibt. Betrachten Sie diese (simulierten) Daten, die einen positiven linearen Trend und einen sehr einflussreichen Ausreißer aufweisen:

Geben Sie hier die Bildbeschreibung ein

Hier ist die grafische Darstellung der angepassten Werte gegen die rohen Residuen:

Geben Sie hier die Bildbeschreibung ein

Beachten Sie, dass der Wert des Residuums unseres Einflusspunkts näher an 0 liegt als die minimalen und maximalen Residuen der übrigen Punkte (nicht in den 3 extremsten rohen Residuen).

Hier ist nun die Darstellung mit den standardisierten (intern studentisierten) Residuen:

Geben Sie hier die Bildbeschreibung ein

In diesem Diagramm fällt das standardisierte Residuum auf, weil sein Einfluss berücksichtigt wurde.

In diesem einfachen Beispiel ist es leicht zu sehen, was los ist, aber was wäre, wenn wir mehr als 1 Variable und einen Punkt hätten, der sehr einflussreich, aber in den zweidimensionalen Darstellungen nicht ungewöhnlich war? Es wäre aus Plots von rohen Residuen nicht offensichtlich, aber die studentisierten Residuen würden dieses Residuum als extremer zeigen.x

Greg Snow
quelle