In der linearen Regressionsanalyse analysieren wir Ausreißer, untersuchen Multikollinearität und testen Heteroskediktie.
Die Frage ist: Gibt es eine Reihenfolge, um diese anzuwenden? Ich meine, müssen wir zuerst Ausreißer analysieren und dann Multikollinearität untersuchen? Oder umgekehrt?
Gibt es eine Faustregel dazu?
Antworten:
Der Prozess ist iterativ, aber es gibt eine natürliche Reihenfolge:
Sie müssen sich zuerst über Bedingungen Gedanken machen , die geradezu numerische Fehler verursachen . Multikollinearität ist eine davon, weil sie instabile Gleichungssysteme erzeugen kann, die möglicherweise zu völlig falschen Antworten führen (auf 16 Dezimalstellen ...). Jedes Problem hier bedeutet normalerweise, dass Sie nicht weitermachen können, bis es behoben ist. Multikollinearität wird normalerweise mithilfe von Varianzinflationsfaktoren und einer ähnlichen Untersuchung der "Hutmatrix" diagnostiziert. Weitere Überprüfungen in dieser Phase können die Beurteilung des Einflusses fehlender Werte im Datensatz und die Überprüfung der Identifizierbarkeit wichtiger Parameter umfassen. (Fehlende Kombinationen von diskreten unabhängigen Variablen können hier manchmal Probleme verursachen.)
Als nächstes müssen Sie sich Gedanken machen, ob die Ausgabe die meisten Daten widerspiegelt oder für eine kleine Teilmenge empfindlich ist. Im letzteren Fall kann alles, was Sie später tun, irreführend sein, weshalb dies vermieden werden sollte. Die Verfahren umfassen die Prüfung von Ausreißern und der Hebelwirkung . (Ein Datum mit hohem Verschuldungsgrad ist möglicherweise kein Ausreißer, kann jedoch alle Ergebnisse in unzulässiger Weise beeinflussen.) Wenn eine robuste Alternative zum Regressionsverfahren besteht, ist dies ein guter Zeitpunkt, um es anzuwenden: Überprüfen Sie, ob es ähnliche Ergebnisse liefert, und Verwenden Sie es, um abweichende Werte zu erkennen.
Nachdem Sie eine Situation erreicht haben, die numerisch stabil ist (sodass Sie den Berechnungen vertrauen können) und die den gesamten Datensatz widerspiegelt, wenden Sie sich einer Untersuchung der statistischen Annahmen zu, die für die korrekte Interpretation der Ausgabe erforderlich sind . In erster Linie konzentrieren sich diese Probleme - in grober Reihenfolge ihrer Bedeutung - auf die Verteilung der Residuen (einschließlich der Heteroskedastizität, aber auch auf Symmetrie, Verteilungsform, mögliche Korrelation mit vorhergesagten Werten oder anderen Variablen und Autokorrelation), die Anpassungsgüte (einschließlich der Notwendigkeit für Interaktionsterme), ob die abhängige Variable erneut ausgedrückt werden soll und ob die unabhängigen Variablen erneut ausgedrückt werden sollen.
In jedem Stadium, wenn etwas korrigiert werden muss, ist es ratsam, zum Anfang zurückzukehren. Wiederholen Sie dies so oft wie nötig.
quelle
Ich denke es kommt auf die Situation an. Wenn Sie keine besonderen Probleme erwarten, können Sie diese wahrscheinlich in beliebiger Reihenfolge überprüfen. Wenn Sie Ausreißer erwarten und möglicherweise einen Grund haben, sie nach dem Erkennen zu entfernen, suchen Sie zuerst nach Ausreißern. Die anderen Probleme mit dem Modell können sich ändern, nachdem die Beobachtungen entfernt wurden. Danach spielt die Reihenfolge zwischen Multikollinaerität und Heteroskedastizität keine Rolle mehr. Ich stimme Chris zu, dass Ausreißer nicht willkürlich entfernt werden sollten. Sie müssen einen Grund zur Annahme haben, dass die Beobachtungen falsch sind.
Wenn Sie Multikollinearität oder Heteroskedastizität beobachten, müssen Sie möglicherweise Ihren Ansatz ändern. Das Multikollinearitätsproblem wird in der Kovarianzmatrix beobachtet, es gibt jedoch spezielle Diagnosetests zum Erkennen von Multikollinearität und andere Probleme, wie Hebelpunkte, im Regressionsdiagnosebuch von Belsley, Kuh und Welsch oder in einem von Dennis Cooks Regressionsbüchern .
quelle