In welcher Reihenfolge sollten Sie eine lineare Regressionsdiagnose durchführen?

24

In der linearen Regressionsanalyse analysieren wir Ausreißer, untersuchen Multikollinearität und testen Heteroskediktie.

Die Frage ist: Gibt es eine Reihenfolge, um diese anzuwenden? Ich meine, müssen wir zuerst Ausreißer analysieren und dann Multikollinearität untersuchen? Oder umgekehrt?

Gibt es eine Faustregel dazu?

halil
quelle
2
Einige sehr grobe Faustregeln: Sie sollten die Kollinearität untersuchen, bevor Sie eine Anpassung vornehmen. Wenn Sie feststellen, dass es vorhanden ist, sollten Sie entweder (a) eine Methode verwenden, die die Kollinearität behandelt, (b) kollineare Merkmale entfernen oder (c) Ihre Merkmale transformieren (z. B. mit PCA). Sobald Sie ein Modell angepasst haben, können Sie in den Residuen nach Heteroskedastizität suchen. Wenn Sie ein Vorhersagemodell erstellen, sollten Sie im Allgemeinen keine Ausreißer entfernen. Verwenden Sie stattdessen eine Methode, die gegenüber Ausreißern robust ist.
Chris Taylor
1
Wie untersucht man am besten die Kollinearität? Betrachten Sie die nicht diagonalen Elemente der Korrelationsmatrix der Prädiktoren?
Miura
1
Der beste Weg, um die Kollinearität zu untersuchen, sind Zustandsindizes und der von ihnen erklärte Varianzanteil. Eine hohe Korrelation ist weder eine notwendige noch eine ausreichende Bedingung für die Kollinearität.
Peter Flom - Reinstate Monica

Antworten:

28

Der Prozess ist iterativ, aber es gibt eine natürliche Reihenfolge:

  1. Sie müssen sich zuerst über Bedingungen Gedanken machen , die geradezu numerische Fehler verursachen . Multikollinearität ist eine davon, weil sie instabile Gleichungssysteme erzeugen kann, die möglicherweise zu völlig falschen Antworten führen (auf 16 Dezimalstellen ...). Jedes Problem hier bedeutet normalerweise, dass Sie nicht weitermachen können, bis es behoben ist. Multikollinearität wird normalerweise mithilfe von Varianzinflationsfaktoren und einer ähnlichen Untersuchung der "Hutmatrix" diagnostiziert. Weitere Überprüfungen in dieser Phase können die Beurteilung des Einflusses fehlender Werte im Datensatz und die Überprüfung der Identifizierbarkeit wichtiger Parameter umfassen. (Fehlende Kombinationen von diskreten unabhängigen Variablen können hier manchmal Probleme verursachen.)

  2. Als nächstes müssen Sie sich Gedanken machen, ob die Ausgabe die meisten Daten widerspiegelt oder für eine kleine Teilmenge empfindlich ist. Im letzteren Fall kann alles, was Sie später tun, irreführend sein, weshalb dies vermieden werden sollte. Die Verfahren umfassen die Prüfung von Ausreißern und der Hebelwirkung . (Ein Datum mit hohem Verschuldungsgrad ist möglicherweise kein Ausreißer, kann jedoch alle Ergebnisse in unzulässiger Weise beeinflussen.) Wenn eine robuste Alternative zum Regressionsverfahren besteht, ist dies ein guter Zeitpunkt, um es anzuwenden: Überprüfen Sie, ob es ähnliche Ergebnisse liefert, und Verwenden Sie es, um abweichende Werte zu erkennen.

  3. Nachdem Sie eine Situation erreicht haben, die numerisch stabil ist (sodass Sie den Berechnungen vertrauen können) und die den gesamten Datensatz widerspiegelt, wenden Sie sich einer Untersuchung der statistischen Annahmen zu, die für die korrekte Interpretation der Ausgabe erforderlich sind . In erster Linie konzentrieren sich diese Probleme - in grober Reihenfolge ihrer Bedeutung - auf die Verteilung der Residuen (einschließlich der Heteroskedastizität, aber auch auf Symmetrie, Verteilungsform, mögliche Korrelation mit vorhergesagten Werten oder anderen Variablen und Autokorrelation), die Anpassungsgüte (einschließlich der Notwendigkeit für Interaktionsterme), ob die abhängige Variable erneut ausgedrückt werden soll und ob die unabhängigen Variablen erneut ausgedrückt werden sollen.

In jedem Stadium, wenn etwas korrigiert werden muss, ist es ratsam, zum Anfang zurückzukehren. Wiederholen Sie dies so oft wie nötig.

whuber
quelle
2
Eigentlich bevorzuge ich die Verwendung von Zustandsindizes anstelle von VIFs. Über diese habe ich vor einiger Zeit meine Dissertation gemacht.
Peter Flom - Wiedereinsetzung von Monica
1
@ Peter Guter Punkt. Ich bevorzuge auch Zustandsindizes, aber es scheint mir, dass VIFs jetzt sehr beliebt sind.
Whuber
whuber, ich bin hier von Ihrem Kommentar früher heute gefolgt. Ich habe mich während meines Postdocs einmal mit einem Statistiker über einige Bedenken in Bezug auf Multikollinearität beraten. Er vertrat die Ansicht, dass die Kollinearität in Abhängigkeit von der Art der IVs in einer Regression als struktureller Teil der zu modellierenden Phänomene betrachtet werden könne. Wahrscheinlich verstümmele ich seine genaue Sprache, und ich müsste graben, um seinen Namen überhaupt wiederzufinden, aber kennen Sie Texte, die eine differenzierte Argumentation über Multikollinearität in diese Richtung motivieren würden? Nur eine zufällige Frage. :)
Alexis
@Alexis Es klingt so, als hätte der Statistiker ein differenziertes und ausgefeiltes Konzept der Multikollinearität. Mir fällt kein Lehrbuch ein, das dies klar ausdrückt.
whuber
Ich muss ihn nur ausfindig machen und ihn danach fragen. :)
Alexis
3

Ich denke es kommt auf die Situation an. Wenn Sie keine besonderen Probleme erwarten, können Sie diese wahrscheinlich in beliebiger Reihenfolge überprüfen. Wenn Sie Ausreißer erwarten und möglicherweise einen Grund haben, sie nach dem Erkennen zu entfernen, suchen Sie zuerst nach Ausreißern. Die anderen Probleme mit dem Modell können sich ändern, nachdem die Beobachtungen entfernt wurden. Danach spielt die Reihenfolge zwischen Multikollinaerität und Heteroskedastizität keine Rolle mehr. Ich stimme Chris zu, dass Ausreißer nicht willkürlich entfernt werden sollten. Sie müssen einen Grund zur Annahme haben, dass die Beobachtungen falsch sind.

Wenn Sie Multikollinearität oder Heteroskedastizität beobachten, müssen Sie möglicherweise Ihren Ansatz ändern. Das Multikollinearitätsproblem wird in der Kovarianzmatrix beobachtet, es gibt jedoch spezielle Diagnosetests zum Erkennen von Multikollinearität und andere Probleme, wie Hebelpunkte, im Regressionsdiagnosebuch von Belsley, Kuh und Welsch oder in einem von Dennis Cooks Regressionsbüchern .

Michael R. Chernick
quelle
9
Michael, können Sie in Zukunft die Formatierungsoptionen verwenden? (Der richtige Schlüssel zum Einfügen von Links ist Strg-L, nicht Strg-C).
User603