Multikollinearität zwischen ln (x) und ln (x) ^ 2

7

Ich verwende ein negatives Binomialmodell und eine meiner Prädiktorvariablen ist eine Zählvariable. Da diese Variable stark verzerrt war, habe ich beschlossen, sie logarithmisch zu transformieren.

Es wird jedoch angenommen, dass der Effekt dieser Variablen nicht linear ist. Sobald ich jedoch den quadratischen Term in mein Modell einbeziehe, erhalte ich VIFs dieser beiden Variablen, die> 20 sind, während alle anderen Prädiktoren bei VIFs zwischen 1 und 5 stabil bleiben.

Nach meinem derzeitigen Verständnis sollte die Beziehung nicht linear sein und daher sollte keine Multikollinienz entstehen.

Kann jemand die Ursache der Multi-Kollinearität erklären und mögliche Lösungen für dieses Problem geben?

statsnewby
quelle
Nun, f (x) = x ^ 2, wo die Kollinearität entsteht. Wenn Sie die Kollinearität zwischen x und x ^ 2 reduzieren möchten, empfehle ich, x zu zentrieren und dann die zentrierte Kovariate zu quadrieren. Siehe diesen Beitrag: theanalysisfactor.com/…
Brash Equilibrium
Was ist die Domäne von x? Für sehr kleine Wertex könnte ungefähr in Betracht gezogen werden x2.
Dan
x ist zwischen 1 und 650, aber nach der Protokolltransformation sind die Werte offensichtlich viel kleiner (zwischen 0 und 2,8)
Statistik neu
Es scheint, dass Sie die Beziehung zwischen einer Variablen und ihrem Quadrat annehmen (es ist zufällig das Protokoll von xund das Quadrat dieses Protokolls, aber das ist hier nicht so wichtig) ist kein lineares und daher sind sie nicht korreliert. Andere haben den Fehler bereits erklärt, aber Sie könnten an diesem verwandten Thread interessiert sein: Pearson-Korrelation zwischen einer Variablen und ihrem Quadrat .
Silverfish

Antworten:

12

Bis auf sehr kleine Zahlen, log(x)2 ist im Wesentlichen eine lineare Funktion von log(x)::

Abbildung zeigt Diagramme und lineare Anpassungen

Die farbigen Linien passen zu den kleinsten Quadraten log(x)2 vs. log(x) für verschiedene Zählbereiche x. Sie sind einmal extrem gutx überschreitet 10 (und immer noch schrecklich gut, auch wenn x>4 oder so).

Das Einführen des Quadrats einer Variablen wird manchmal verwendet, um die Anpassungsgüte zu testen, ist jedoch (meiner Erfahrung nach) selten eine gute Wahl als erklärende Variable. Berücksichtigen Sie die folgenden Optionen, um eine nichtlineare Antwort zu berücksichtigen:

  • Untersuchen Sie die Natur der Nichtlinearität. Wählen Sie geeignete Variablen und / oder Transformationen aus, um sie zu erfassen.

  • Behalten Sie die Zählung selbst im Modell. Bei größeren Zählungen besteht weiterhin Kollinearität. Erstellen Sie daher ein Paar orthogonaler Variablen ausx und log(x) um eine numerisch stabile Passform zu erreichen.

  • Verwenden Sie Splines von x (und / oder log(x)), um die Nichtlinearität zu modellieren.

  • Ignorieren Sie das Problem insgesamt. Wenn Sie über genügend Daten verfügen, kann ein großes VIF keine Rolle spielen. Wenn es nicht Ihr Ziel ist, genaue Koeffizientenschätzungen zu erhalten (was Ihre Transformationsbereitschaft nahelegt, dass dies nicht der Fall ist), spielt Kollinearität ohnehin kaum eine Rolle.

whuber
quelle
Dies ist die Antwort, die ich bevorzugen würde, da sie das anspricht log(x)Bestandteil der Frage, die ich unten nicht getan habe.
Dreistes Gleichgewicht
Vielen Dank für die Antwort, die es vollkommen klar gemacht hat! Als Follow-up möchte ich eine abnehmende Rendite für diese Variable zeigen und bin mir nur der Möglichkeit bewusst, einen quadratischen Term einzuführen. Was wäre angesichts der Verwendung eines Protokolls ein geeigneterer Ansatz?
Statistik neu
Jede der vier Aufzählungszeichen wäre eine Möglichkeit.
whuber
1

Die Quelle der Kollinearität ist das f(x)=x2. Ein Weg, um die Korrelation zwischen zu reduzierenx und x2 ist zu zentrieren x. Lassenz=xE(x) und berechnen z2. Da das untere Ende der Skala jetzt große absolute Werte aufweist, wird das Quadrat groß, wodurch die Beziehung zwischen den Skalen hergestellt wirdz und z2 weniger linear als das zwischen x und x2. Dieser Rat stammt von The Analysis Factor: http://www.theanalysisfactor.com/centering-for-multicollinearity-between-main-effects-and-interaction-terms/

Hinweis : Denken Sie bei der Interpretation der Effekte daran, dass Sie die Kovariate skaliert haben. Einige Forscher warnen möglicherweise vor einer Skalierung, da die Ergebnisse Ihres Modells dann datenabhängig sind. Hier ist eine Perspektive von Andrew Gelman zu diesem Thema: http://andrewgelman.com/2009/07/11/when_to_standar/

Dreistes Gleichgewicht
quelle
Vielen Dank! Ich habe zwei Fragen zu diesem Ansatz: Erstens bezieht sich das x, auf das Sie sich beziehen, auf das nicht transformierte x oder das ln (x)? Die Zentrierung in (x) führte zu keinen wesentlichen Verbesserungen (VIF von 16). Zweitens meinen Sie den Durchschnitt von X mit E (x), also die Zentrierung der Variablen?
Statistik neu
Ah, guter Punkt, ich habe diesen Teil Ihrer Frage vergessen. Ich würde auf die Antwort von @whuber verweisen.
Dreistes Gleichgewicht