Ich verwende ein negatives Binomialmodell und eine meiner Prädiktorvariablen ist eine Zählvariable. Da diese Variable stark verzerrt war, habe ich beschlossen, sie logarithmisch zu transformieren.
Es wird jedoch angenommen, dass der Effekt dieser Variablen nicht linear ist. Sobald ich jedoch den quadratischen Term in mein Modell einbeziehe, erhalte ich VIFs dieser beiden Variablen, die> 20 sind, während alle anderen Prädiktoren bei VIFs zwischen 1 und 5 stabil bleiben.
Nach meinem derzeitigen Verständnis sollte die Beziehung nicht linear sein und daher sollte keine Multikollinienz entstehen.
Kann jemand die Ursache der Multi-Kollinearität erklären und mögliche Lösungen für dieses Problem geben?
multicollinearity
logarithm
vif
statsnewby
quelle
quelle
Antworten:
Bis auf sehr kleine Zahlen,Log( x)2 ist im Wesentlichen eine lineare Funktion von Log( x ) ::
Die farbigen Linien passen zu den kleinsten QuadratenLog( x)2 vs. Log( x ) für verschiedene Zählbereiche x . Sie sind einmal extrem gutx überschreitet 10 (und immer noch schrecklich gut, auch wenn x>4 oder so).
Das Einführen des Quadrats einer Variablen wird manchmal verwendet, um die Anpassungsgüte zu testen, ist jedoch (meiner Erfahrung nach) selten eine gute Wahl als erklärende Variable. Berücksichtigen Sie die folgenden Optionen, um eine nichtlineare Antwort zu berücksichtigen:
Untersuchen Sie die Natur der Nichtlinearität. Wählen Sie geeignete Variablen und / oder Transformationen aus, um sie zu erfassen.
Behalten Sie die Zählung selbst im Modell. Bei größeren Zählungen besteht weiterhin Kollinearität. Erstellen Sie daher ein Paar orthogonaler Variablen ausx und log(x) um eine numerisch stabile Passform zu erreichen.
Verwenden Sie Splines vonx (und / oder log(x) ), um die Nichtlinearität zu modellieren.
Ignorieren Sie das Problem insgesamt. Wenn Sie über genügend Daten verfügen, kann ein großes VIF keine Rolle spielen. Wenn es nicht Ihr Ziel ist, genaue Koeffizientenschätzungen zu erhalten (was Ihre Transformationsbereitschaft nahelegt, dass dies nicht der Fall ist), spielt Kollinearität ohnehin kaum eine Rolle.
quelle
Die Quelle der Kollinearität ist dasf(x)=x2 . Ein Weg, um die Korrelation zwischen zu reduzierenx und x2 ist zu zentrieren x . Lassenz=x−E(x) und berechnen z2 . Da das untere Ende der Skala jetzt große absolute Werte aufweist, wird das Quadrat groß, wodurch die Beziehung zwischen den Skalen hergestellt wirdz und z2 weniger linear als das zwischen x und x2 . Dieser Rat stammt von The Analysis Factor: http://www.theanalysisfactor.com/centering-for-multicollinearity-between-main-effects-and-interaction-terms/
Hinweis : Denken Sie bei der Interpretation der Effekte daran, dass Sie die Kovariate skaliert haben. Einige Forscher warnen möglicherweise vor einer Skalierung, da die Ergebnisse Ihres Modells dann datenabhängig sind. Hier ist eine Perspektive von Andrew Gelman zu diesem Thema: http://andrewgelman.com/2009/07/11/when_to_standar/
quelle