Ich möchte feststellen, ob Kollinearität ein Problem in meiner OLS-Regression ist. Ich verstehe, dass Varianzinflationsfaktoren und der Zustandsindex zwei häufig verwendete Messgrößen sind, finde es jedoch schwierig, etwas Bestimmtes in Bezug auf die Vorzüge jedes Ansatzes oder die Höhe der Bewertungen zu finden.
Eine prominente Quelle, die angibt, welcher Ansatz zu tun ist und / oder welche Bewertungen angemessen sind, wäre sehr nützlich.
Eine ähnliche Frage wurde gestellt bei "Gibt es einen Grund, ein bestimmtes Maß an Multikollinearität zu bevorzugen?" aber ich bin idealerweise nach einer Referenz, die ich zitieren kann.
Antworten:
Belsley, Kuh und Welsch ist der Text für diese Art von Frage. Sie enthalten eine ausführliche Diskussion älterer Diagnosen in einem Abschnitt mit dem Titel "Historische Perspektive". In Bezug auf VIF schreiben sie
Anstelle der Analyse von (oder R - 1 ) schlägt die BKW eine sorgfältige, kontrollierte Untersuchung der Singularwertzerlegung von X vor . Sie motivieren es, indem sie zeigen, dass das Verhältnis der größten zu den kleinsten Singularwerten die Bedingungszahl von X ist, und zeigen, wie die Bedingungszahl (manchmal enge) Grenzen für die Ausbreitung von Rechenfehlern bei der Berechnung der Regressionsschätzungen bietet. Sie gehen auf eine ungefähre Zersetzung zu versuchen , von der der Parameterschätzungen Varianzen ß iR R−1 X X β^i in Komponenten, die den Singularwerten zugeordnet sind. Die Kraft dieser Zerlegung liegt in ihrer Fähigkeit (in vielen Fällen), die Natur der Kollinearität aufzudecken , anstatt nur ihre Anwesenheit anzuzeigen.
Letztendlich empfiehlt die BKW die Diagnose der Kollinearität mittels
quelle
VIFs, wie sie normalerweise implementiert werden, können Sie jedoch nicht über die Kollinearität mit dem Achsenabschnitt informieren, da der Achsenabschnitt normalerweise stillschweigend in diesen "Helfer" -Regressionen enthalten ist. Wenn ein Regressor ein hohes VIF hat, wissen Sie nicht sofort, welche anderen Regressoren für die Kollinearität verantwortlich sind. Sie müssten standardisierte Koeffizienten in den Helfer-Regressionen betrachten.
Die Bedingungsindizes und Kollinearitätszerlegungsanteile von Belsley, Kuh & Welsch (Belsley, DA; Kuh, E. & Welsch, RE Regressionsdiagnostik: Identifizierung einflussreicher Daten und Quellen der Kollinearität. John Wiley & Sons, 1980) sind weitaus schwieriger zu verstehen. Ich habe vor ein paar Jahren damit gearbeitet, aber ich werde nicht versuchen, sie hier zu erklären, ohne eine Auffrischung zu bekommen ;-)
Diese Diagnose kann erlauben Kollinearität mit dem Schnitt erkennen. Und Sie können die Proportionen der Kollinearitätszerlegung untersuchen, um abzuleiten, welche anderen Regressoren für die Kollinearität eines bestimmten Regressors verantwortlich sind.
quelle
Für weit verbreitete Verweise auf Zitate enthält das Faraway-Buch auf Seite 117 eine Faustregel von über 30 zum Erkennen von Problemen anhand von Bedingungsnummern und Eine Einführung in das statistische Lernen , Seite 101, besagt, dass VIF-Werte über 5 oder 10 auf ein Problem hinweisen .
Wahrscheinlich wichtiger als die Methode, mit der Sie Multikollinearität identifizieren, ist der Umgang damit.
quelle