Beim Basteln mit einem multivariaten Regressionsmodell stellte ich fest, dass innerhalb der Kategorien einer kategorialen Variablen (natürlich nach Ausschluss der Referenzkategorie) ein kleiner, aber wahrnehmbarer Multikollinearitätseffekt auftrat, gemessen anhand von Varianzinflationsfaktoren .
Nehmen wir zum Beispiel an, wir haben einen Datensatz mit der stetigen Variablen y und einer nominalen kategorialen Variablen x, die k mögliche sich gegenseitig ausschließende Werte hat. Wir codieren diese möglichen Werte als 0/1 Dummy-Variablen x 1 , x 2 , … , x k . Dann führen wir ein Regressionsmodell y = b 0 + b 1 x 1 + b 2 x 2 + ⋯ + b k - 1 x k - 1 aus . Das VIF-Ergebnis für k - 1Dummy-Variablen sind nicht Null. Tatsächlich nehmen die VIFs mit zunehmender Anzahl von Kategorien zu. Das Zentrieren der Dummy-Variablen scheint die VIFs nicht zu ändern.
Die intuitive Erklärung scheint zu sein, dass die sich gegenseitig ausschließende Bedingung der Kategorien innerhalb der kategorialen Variablen diese leichte Multikollinearität verursacht. Ist dies ein trivialer Befund oder ein Problem, das beim Erstellen von Regressionsmodellen mit kategorialen Variablen zu berücksichtigen ist?