Derzeit bewerte ich die Multikollinearität in meinen Datensätzen.
Welche Schwellenwerte von VIF und Zustandsindex unter / über deuten auf ein Problem hin?
VIF: Ich habe gehört, dass VIF ein Problem ist.
Nach dem Entfernen von zwei Problemvariablen beträgt VIF für jede Variable . Müssen die Variablen weiter behandelt werden oder scheint dieses VIF in Ordnung zu sein?
Condition Index: Ich habe gehört, dass ein Condition Index (CI) von 30 oder mehr ein Problem darstellt. Mein höchster CI ist 16,66. Ist das ein Problem?
Andere Probleme:
- Gibt es andere Dos / Donts, die berücksichtigt werden müssen?
- Gibt es noch andere Dinge, die ich beachten muss?
multiple-regression
linear-model
multicollinearity
vif
Ayush Biyani
quelle
quelle
Antworten:
Das Multikollinearitätsproblem ist in den meisten ökonometrischen Lehrbüchern gut untersucht. Außerdem gibt es in Wikipedia einen guten Artikel, der die meisten wichtigen Themen zusammenfasst.
In der Praxis fängt man an, das Multikollinearitätsproblem zu berücksichtigen, wenn es einige visuelle Anzeichen für eine Parameterinstabilität verursacht (die meisten davon sind auf eine nicht (schlechte) Invertierbarkeit der Matrix zurückzuführen):XTX
wahrscheinlich nicht theoretisch, da es passieren kann (und normalerweise der Fall ist), dass alle Variablen im Modell vorhanden sein müssen. Das Ausschließen relevanter Variablen (ausgelassenes Variablenproblem) führt ohnehin zu verzerrten und inkonsistenten Parameterschätzungen. Andererseits können Sie gezwungen sein, alle Fokusvariablen einzuschließen, nur weil Ihre Analyse darauf basiert. Beim Data-Mining-Ansatz sind Sie jedoch eher technisch auf der Suche nach der besten Lösung.
Denken Sie also an die Alternativen (die ich selbst verwenden würde):
Einige andere Tricks finden Sie im oben genannten Wiki-Artikel.
quelle
Ich glaube, Belsely sagte, dass CI über 10 ein mögliches moderates Problem anzeigt, während über 30 schwerwiegender ist.
Darüber hinaus sollten Sie sich jedoch die Varianz ansehen, die die Variablensätze in den Indizes für hohe Bedingungen gemeinsam haben. Es gibt Debatten (oder gab es, als ich diese Literatur das letzte Mal las) darüber, ob Kollinearität, die eine Variable und den Achsenabschnitt betraf, problematisch war oder nicht, und ob das Zentrieren der beleidigenden Variablen das Problem beseitigt oder einfach an einen anderen Ort verschoben wurde.
quelle