Rohe Residuen versus standardisierte Residuen versus studentisierte Residuen - was ist wann zu verwenden?

31

Dies sieht aus wie eine ähnliche Frage und hat nicht viele Antworten erhalten.

Wenn ich Tests wie Cooks D weglasse und nur die Residuen als Gruppe betrachte, interessiert mich, wie andere Residuen bei der Beurteilung der Anpassungsgüte verwenden. Ich verwende die rohen Residuen:

  1. in einem QQ-Plot zur Beurteilung der Normalität
  2. in einem Streudiagramm von gegen Residuen zur Augapfelkontrolle von (a) Hetereoskedastizität und (b) serieller Autokorrelation.y

Um gegen Residuen zu zeichnen und die Werte für zu untersuchen, bei denen Ausreißer auftreten können, bevorzuge ich die studentisierten Residuen . Der Grund für meine Präferenz ist, dass es eine einfache Anzeige ermöglicht, welche Residuen bei welchen Werten problematisch sind, obwohl standardisierte Residuen ein äußerst ähnliches Ergebnis liefern. Nach meiner Theorie kommt es darauf an, an welcher Universität man studiert hat.yyy

Ist dies ähnlich wie bei anderen die Verwendung von Residuen? Verwenden andere diese Anzahl von Diagrammen in Kombination mit zusammenfassenden Statistiken?

Michelle
quelle
3
Studentisierte Residuen sind zweifellos besser in der Erkennung von Ausreißern und vielleicht ein bisschen besser in der Heteroskedastizitätsprüfung. Für andere Zwecke macht es für mich keinen Unterschied, welche Reste zu verwenden sind.
ttnphns
Um Michelle auf eine Frage aufmerksam zu machen oder um eine Änderung ihres Status zu bitten (z. B. CW), folgen Sie bitte dem "Flag" -Link unter der Frage. Dies benachrichtigt automatisch alle Moderatoren. Das Einbetten von Anfragen in Fragen, Kommentare oder Antworten ist ein Hit-or-Miss, da es auf der Hoffnung beruht, dass ein Moderator (oder ein anderer hochrangiger Benutzer) es tatsächlich innerhalb einer angemessenen Zeit liest!
whuber
@whuber Ah, ich habe gedacht, einer von euch würde es irgendwann lesen. :) Danke für den Tipp zur Verwendung von Flags.
Michelle
1
Hi @ttnphns Warum sollten sie besser sein? Warum sollte ein Student besser sein als ein Standard? (Ich habe die Antwort hier nie wirklich gekannt)
Peter Flom - Monica wieder einsetzen
4
@Peter, studentisierte Residuen werden durch das OLS-Anpassungsalgo weniger "verzerrt" und kommen dem theoretischen Begriff "Fehler" näher . Sie können direkt in verschiedenen Bereichen der Anpassungslinie verglichen werden, daher ist die Entscheidung, ob ein Punkt ein Ausreißer ist, besser.
TTNPHNS

Antworten:

8

Dies ist weniger eine Antwort als vielmehr eine Klarstellung der Terminologie. Bei Ihrer Frage geht es um unformatierte, standardisierte und studentisierte Residuen. Dies ist jedoch nicht die Terminologie, die von den meisten Statistikern verwendet wird, obwohl Ihre Klassennotizen dies bestätigen.

Raw: so wie du es hast.

Standardisiert: Dies sind die rohen Residuen geteilt durch die wahre Standardabweichung der Residuen. Da die wahre Standardabweichung selten bekannt ist, wird so gut wie nie ein standardisiertes Residuum verwendet.

Intern studentisiert: Da die wahre Standardabweichung der Residuen normalerweise nicht bekannt ist, wird stattdessen die geschätzte Standardabweichung verwendet. Dies ist ein interanlly studentized Residuum, und es ist, was Sie standardisiert nannten.

Extern studentisiert: Entspricht dem intern studentisierten Residuum, mit der Ausnahme, dass die Schätzung der Standardabweichung der Residuen aus einer Regression berechnet wird, bei der die betreffende Beobachtung nicht berücksichtigt wird.

Pearson: Das rohe Residuum dividiert durch die Standardabweichung der Antwortvariablen (der y-Variablen) und nicht der Residuen. Sie haben diese nicht aufgeführt.

"Lass eins aus": Hat keinen formalen Namen, ist aber derselbe wie die Klassennotizen.

standarisiert "lass eins aus": hat auch keinen formalen Namen, aber dies ist nicht das, was die Klassennotizen als studentisiert bezeichnen.

Quellen:

  1. der gleiche Wiki-Link, den Sie über studentisierte Residuen haben ("ein studentisierter Residuum ist der Quotient, der sich aus der Division eines Residuums durch eine Schätzung seiner Standardabweichung ergibt")

  2. Dokumentation zur Restkalkulation in SAS

Michael Cooney
quelle
2
+1 Sicherlich haben einige Statistiker die Begriffe in der Frage des OP verwendet (und sie stimmen nicht immer perfekt mit anderen überein, die dieselben Wörter verwenden). Ich denke, die Begriffe, die Sie verwenden, werden immer häufiger, aber ich bin nicht sicher, auf welcher Grundlage wir ihre relativ weltweite Verwendung unter Statistikern schätzen können - Papiere zum Beispiel helfen nicht unbedingt, weil der durchschnittliche Statistiker nicht aktiv sein wird Veröffentlichung. Sie mögen Recht haben - aber wie würden wir es wissen? [Wenn Sie die Bearbeitung erneut durchführen, möchten Sie möglicherweise "standardisiert" am Ende durch "standardisiert" ersetzen.]
Glen_b - Monica
2

Re: Grundstücke,

Es gibt so etwas wie Überanpassung, aber Überplotten kann nicht wirklich schaden, besonders in der Diagnosephase. Ein standardisiertes Normalwahrscheinlichkeitsdiagramm kann neben Ihrem QQ-Diagramm nicht schaden. Ich finde es besser, die Mitte der Verteilung einzuschätzen.

Re: Residuen,

Im Entwurfsstadium führe ich sowohl standardisierte als auch studentisierte Residuen aus und verschlüssele normalerweise die standardisierten Residuen. Ich weiß nicht, was andere Leute tatsächlich ausführen, da die Diagnosen in dem Replikationsmaterial, das ich online finde, wirklich festgehalten sind.

Betreff: Diagnose,

Für ein lineares Modell füge ich normalerweise Varianzinflationsfaktoren (mit dem vifBefehl in Stata) und einige Homoskedastizitätstests (z. B. mit dem hettestBefehl in Stata) sowie eine Modellzerlegung mit verschachtelter Regression hinzu, um zu überprüfen, ob das einen Sinn ergibt .R2

Fr.
quelle