VIF, Bedingungsindex und Eigenwerte

15

Derzeit bewerte ich die Multikollinearität in meinen Datensätzen.

Welche Schwellenwerte von VIF und Zustandsindex unter / über deuten auf ein Problem hin?

VIF: Ich habe gehört, dass VIF ein Problem ist.10

Nach dem Entfernen von zwei Problemvariablen beträgt VIF für jede Variable . Müssen die Variablen weiter behandelt werden oder scheint dieses VIF in Ordnung zu sein?3.96

Condition Index: Ich habe gehört, dass ein Condition Index (CI) von 30 oder mehr ein Problem darstellt. Mein höchster CI ist 16,66. Ist das ein Problem?

Andere Probleme:

  • Gibt es andere Dos / Donts, die berücksichtigt werden müssen?
  • Gibt es noch andere Dinge, die ich beachten muss?
Ayush Biyani
quelle
1
Bitte klären Sie die Frage. Dies waren insbesondere einige Kommentare aus der Vergangenheit: Von @chl - "Sie sollten erwägen, klare Fragen (die für sich genommen interessant sind) mit einem endgültigen Problem zu schreiben und Kommentare für zusätzliche Infos zu Ihrer ursprünglichen Frage zu reservieren, die nicht folgen. oben". By @shane - "In Bezug auf diese aktuelle Frage: Es könnte auch verbessert werden, weil viele verschiedene Fragen ohne einen eindeutigen gemeinsamen Thread gestellt werden. Interessieren Sie sich für Multikollinearität im Allgemeinen? Oder interessieren Sie sich für VIF? Es ist besser, diese auszubrechen zur Klarheit."

Antworten:

5

Das Multikollinearitätsproblem ist in den meisten ökonometrischen Lehrbüchern gut untersucht. Außerdem gibt es in Wikipedia einen guten Artikel, der die meisten wichtigen Themen zusammenfasst.

In der Praxis fängt man an, das Multikollinearitätsproblem zu berücksichtigen, wenn es einige visuelle Anzeichen für eine Parameterinstabilität verursacht (die meisten davon sind auf eine nicht (schlechte) Invertierbarkeit der Matrix zurückzuführen):XTX

  1. Große Änderungen der Parameterschätzungen während der Ausführung von fortlaufenden Regressionen oder Schätzungen für kleinere Teilstichproben der Daten
  2. Bei der Mittelung von Parameterschätzungen kann letztere (nach Tests) als nicht signifikant eingestuft werden, obwohl der Junk-Regression- Test eine hohe gemeinsame Signifikanz der Ergebnisse aufweistFtF
  3. VIF - Statistik (Mittelwert von Hilfs Regressionen) lediglich auf Anforderungen Toleranzniveau abhängt, praktischste Vorschläge stellen eine annehmbare Toleranz gegenüber niedriger als 0,2 oder 0,1 bedeutet , dass entsprechende Mittelwerte der Hilfs Regressionen höher sein sollte als 0,9 oder 0,8 bis Erkennen Sie das Problem. Daher sollte VIF größer sein als die 10- und 5-Werte der Faustregel. Bei kleinen Stichproben (weniger als 50 Punkte) ist 5 vorzuziehen, bei größeren können Sie zu größeren Werten wechseln. R2
  4. Der Zustandsindex ist in Ihrem Fall eine Alternative zu VIF. Weder VIF noch CI zeigen, dass das Problem weiterhin besteht. Sie können also statistisch mit diesem Ergebnis zufrieden sein , aber ...

wahrscheinlich nicht theoretisch, da es passieren kann (und normalerweise der Fall ist), dass alle Variablen im Modell vorhanden sein müssen. Das Ausschließen relevanter Variablen (ausgelassenes Variablenproblem) führt ohnehin zu verzerrten und inkonsistenten Parameterschätzungen. Andererseits können Sie gezwungen sein, alle Fokusvariablen einzuschließen, nur weil Ihre Analyse darauf basiert. Beim Data-Mining-Ansatz sind Sie jedoch eher technisch auf der Suche nach der besten Lösung.

Denken Sie also an die Alternativen (die ich selbst verwenden würde):

  1. Erhalten Sie mehr Datenpunkte. (Beachten Sie, dass die VIF-Anforderungen für größere Datenmengen kleiner sind. Wenn sich die erklärenden Variablen langsam ändern, können sie sich für einige wichtige Zeitpunkte oder Querschnitte ändern.)
  2. Suche nach Lattentfaktoren durch Hauptkomponenten (letztere sind orthogonale Kombinationen, also nicht durch die Konstruktion multikollinear, sondern beziehen alle erklärenden Variablen mit ein)
  3. Grat-Regression (führt eine geringe Verzerrung der Parameterschätzungen ein, macht sie jedoch sehr stabil)

Einige andere Tricks finden Sie im oben genannten Wiki-Artikel.

Dmitrij Celov
quelle
3

Ich glaube, Belsely sagte, dass CI über 10 ein mögliches moderates Problem anzeigt, während über 30 schwerwiegender ist.

Darüber hinaus sollten Sie sich jedoch die Varianz ansehen, die die Variablensätze in den Indizes für hohe Bedingungen gemeinsam haben. Es gibt Debatten (oder gab es, als ich diese Literatur das letzte Mal las) darüber, ob Kollinearität, die eine Variable und den Achsenabschnitt betraf, problematisch war oder nicht, und ob das Zentrieren der beleidigenden Variablen das Problem beseitigt oder einfach an einen anderen Ort verschoben wurde.

Peter Flom - Wiedereinsetzung von Monica
quelle