Dies sieht aus wie eine ähnliche Frage und hat nicht viele Antworten erhalten.
Wenn ich Tests wie Cooks D weglasse und nur die Residuen als Gruppe betrachte, interessiert mich, wie andere Residuen bei der Beurteilung der Anpassungsgüte verwenden. Ich verwende die rohen Residuen:
- in einem QQ-Plot zur Beurteilung der Normalität
- in einem Streudiagramm von gegen Residuen zur Augapfelkontrolle von (a) Hetereoskedastizität und (b) serieller Autokorrelation.
Um gegen Residuen zu zeichnen und die Werte für zu untersuchen, bei denen Ausreißer auftreten können, bevorzuge ich die studentisierten Residuen . Der Grund für meine Präferenz ist, dass es eine einfache Anzeige ermöglicht, welche Residuen bei welchen Werten problematisch sind, obwohl standardisierte Residuen ein äußerst ähnliches Ergebnis liefern. Nach meiner Theorie kommt es darauf an, an welcher Universität man studiert hat.
Ist dies ähnlich wie bei anderen die Verwendung von Residuen? Verwenden andere diese Anzahl von Diagrammen in Kombination mit zusammenfassenden Statistiken?
quelle
Antworten:
Dies ist weniger eine Antwort als vielmehr eine Klarstellung der Terminologie. Bei Ihrer Frage geht es um unformatierte, standardisierte und studentisierte Residuen. Dies ist jedoch nicht die Terminologie, die von den meisten Statistikern verwendet wird, obwohl Ihre Klassennotizen dies bestätigen.
Raw: so wie du es hast.
Standardisiert: Dies sind die rohen Residuen geteilt durch die wahre Standardabweichung der Residuen. Da die wahre Standardabweichung selten bekannt ist, wird so gut wie nie ein standardisiertes Residuum verwendet.
Intern studentisiert: Da die wahre Standardabweichung der Residuen normalerweise nicht bekannt ist, wird stattdessen die geschätzte Standardabweichung verwendet. Dies ist ein interanlly studentized Residuum, und es ist, was Sie standardisiert nannten.
Extern studentisiert: Entspricht dem intern studentisierten Residuum, mit der Ausnahme, dass die Schätzung der Standardabweichung der Residuen aus einer Regression berechnet wird, bei der die betreffende Beobachtung nicht berücksichtigt wird.
Pearson: Das rohe Residuum dividiert durch die Standardabweichung der Antwortvariablen (der y-Variablen) und nicht der Residuen. Sie haben diese nicht aufgeführt.
"Lass eins aus": Hat keinen formalen Namen, ist aber derselbe wie die Klassennotizen.
standarisiert "lass eins aus": hat auch keinen formalen Namen, aber dies ist nicht das, was die Klassennotizen als studentisiert bezeichnen.
Quellen:
der gleiche Wiki-Link, den Sie über studentisierte Residuen haben ("ein studentisierter Residuum ist der Quotient, der sich aus der Division eines Residuums durch eine Schätzung seiner Standardabweichung ergibt")
Dokumentation zur Restkalkulation in SAS
quelle
Re: Grundstücke,
Es gibt so etwas wie Überanpassung, aber Überplotten kann nicht wirklich schaden, besonders in der Diagnosephase. Ein standardisiertes Normalwahrscheinlichkeitsdiagramm kann neben Ihrem QQ-Diagramm nicht schaden. Ich finde es besser, die Mitte der Verteilung einzuschätzen.
Re: Residuen,
Im Entwurfsstadium führe ich sowohl standardisierte als auch studentisierte Residuen aus und verschlüssele normalerweise die standardisierten Residuen. Ich weiß nicht, was andere Leute tatsächlich ausführen, da die Diagnosen in dem Replikationsmaterial, das ich online finde, wirklich festgehalten sind.
Betreff: Diagnose,
Für ein lineares Modell füge ich normalerweise Varianzinflationsfaktoren (mit demR2
vif
Befehl in Stata) und einige Homoskedastizitätstests (z. B. mit demhettest
Befehl in Stata) sowie eine Modellzerlegung mit verschachtelter Regression hinzu, um zu überprüfen, ob das einen Sinn ergibt .quelle