Multikollinearität, wenn einzelne Regressionen signifikant sind, VIFs jedoch gering sind

13

Ich habe 6 Variablen ( ), die ich verwende, um vorherzusagen . Bei meiner Datenanalyse habe ich zuerst eine multiple lineare Regression versucht. Davon waren nur zwei Variablen signifikant. Wenn ich jedoch eine lineare Regression durchführte, bei der jede Variable einzeln mit verglichen wurde , waren alle bis auf eine signifikant ( zwischen weniger als 0,01 und weniger als 0,001). Es wurde vermutet, dass dies auf Multikollinearität zurückzuführen ist.x1...x6yyp

Meine ersten Untersuchungen dazu legen nahe, die Multikollinearität mithilfe von VIFs zu überprüfen . Ich habe das entsprechende Paket von R heruntergeladen und die resultierenden VIFs erhalten: 3.35, 3.59, 2.64, 2.24 und 5.56. Laut verschiedenen Online-Quellen sollten Sie sich über Multikollinearität mit Ihren VIFs Sorgen machen, und zwar entweder bei 4 oder 5.

Ich bin jetzt ratlos darüber, was dies für meine Daten bedeutet. Habe ich oder habe ich kein Multikollinearitätsproblem? Wenn ja, wie soll ich dann vorgehen? (Ich kann keine weiteren Daten erfassen, und die Variablen sind Teile eines Modells, die nicht offensichtlich zusammenhängen.) Wenn ich dieses Problem nicht habe, was soll ich dann aus meinen Daten entnehmen, insbesondere die Tatsache, dass diese Variablen von hoher Bedeutung sind einzeln, aber in Kombination überhaupt nicht signifikant.

Bearbeiten: Es wurden einige Fragen zum Datensatz gestellt, daher möchte ich Folgendes erweitern ...

In diesem speziellen Fall möchten wir verstehen, wie sich bestimmte soziale Signale (Gesten, Blicke usw.) auf die Wahrscheinlichkeit auswirken, dass jemand ein anderes Signal erzeugt. Wir möchten, dass unser Modell alle wichtigen Attribute enthält, daher ist es mir unangenehm, einige zu entfernen, die überflüssig erscheinen.

Derzeit gibt es hierzu keine Hypothesen. Vielmehr ist das Problem nicht untersucht, und wir möchten besser verstehen, welche Attribute wichtig sind. Soweit ich das beurteilen kann, sollten diese Attribute relativ unabhängig voneinander sein (man kann nicht einfach sagen, dass Blick und Gesten gleich sind oder eine Teilmenge einer anderen). Es wäre schön, p-Werte für alles angeben zu können, da wir möchten, dass andere Forscher verstehen, was betrachtet wurde.

Edit 2: Da es irgendwo unten auftauchte, ist mein 24.n

cryptic_star
quelle
Angenommen , Sie haben multicollinearity haben, können Sie erweitern, wie @ rolando2 schon sagt, auf den beabsichtigten Zweck des Modells? Ist es der Fall, dass alle Prädiktoren für andere Ermittler von Bedeutung sind (in diesem Fall möchten Sie die Signifikanzwerte für jeden von ihnen angeben), oder können Sie nur einen oder zwei von ihnen herauswerfen?
@jlovegren Ich habe oben einige Informationen hinzugefügt - lassen Sie mich wissen, wenn Sie weitere Informationen benötigen.
cryptic_star
Werden die erklärenden Variablen kontinuierlich gemessen? In diesem Fall gibt es Methoden zur Residualisierung, die nicht zu schwierig sind. Wenn sie kategorisch sind, weiß ich es nicht, aber ich hoffe, dass es jemand anderes tun würde (ich habe auf dieser Site eine ähnliche Frage gestellt).
@jlovegren Fünf der sechs Variablen zählen.
cryptic_star
noch eine Sache, nur um sicher zu gehen. Haben die Zählungen eine klare Obergrenze, die häufig erreicht wird, oder ist der Maximalwert der Zählung prinzipiell unbegrenzt?

Antworten:

18

Um zu verstehen, was passieren kann, ist es aufschlussreich, Daten zu generieren (und zu analysieren), die sich wie beschrieben verhalten.

Vergessen wir der Einfachheit halber die sechste unabhängige Variable. Die Frage beschreibt also Regressionen einer abhängigen Variablen gegen fünf unabhängige Variablen x 1 , x 2 , x 3 , x 4 , x 5 , in denenyx1,x2,x3,x4,x5

  • Jede gewöhnliche Regression ist bei Niveaus von 0,01 bis weniger als 0,001 signifikant .yxi0.010.001

  • Die multiple Regression liefert nur für x 1 und x 2 signifikante Koeffizienten .yx1++x5x1x2

  • Alle Varianzinflationsfaktoren (VIFs) sind niedrig, was auf eine gute Konditionierung in der Entwurfsmatrix hinweist (dh auf mangelnde Kollinearität bei ).xi

Lassen Sie uns das wie folgt machen:

  1. Generiere normalverteilte Werte für x 1 und x 2 . (Wir werden n später wählen .)nx1x2n

  2. Sei wobei & epsi ; ein unabhängiger normaler Fehler des Mittelwerts 0 ist . Einige Versuche sind erforderlich, um eine geeignete Standardabweichung für & epsi ; zu finden ; 1 / 100 funktioniert (und ist ziemlich dramatisch: y ist extrem gut mit korrelierten x 1 und x 2 , obwohl es nur mäßig mit korreliert ist x 1 und x 2 einzeln).y=x1+x2+εε0ε1/100yx1x2x1x2

  3. Let = x 1 / 5 + δ , j = 3 , 4 , 5 , wobei δ unabhängige Standardnormal Fehler. Dies macht x 3 , x 4 , x 5 nur geringfügig von x 1 abhängig . Über die enge Korrelation zwischen x 1 und y induziert dies jedoch eine winzige Korrelation zwischen y und diesen x j .xjx1/5+δj=3,4,5δx3,x4,x5x1x1yyxj

Hier ist das Problem: Wenn wir groß genug machen, führen diese kleinen Korrelationen zu signifikanten Koeffizienten, obwohl y fast ausschließlich durch die ersten beiden Variablen "erklärt" wird.ny

Ich fand heraus, dass gut für die Wiedergabe der angegebenen p-Werte geeignet ist. Hier ist eine Streudiagramm-Matrix aller sechs Variablen:n=500

spm

Wenn Sie die rechte Spalte (oder die unterste Zeile) untersuchen, können Sie feststellen , dass eine gute (positive) Korrelation mit x 1 und x 2 aufweist, jedoch nur eine geringe scheinbare Korrelation mit den anderen Variablen. Wenn Sie den Rest dieser Matrix untersuchen, können Sie sehen, dass die unabhängigen Variablen x 1 , , x 5 nicht miteinander korreliert zu sein scheinen (der Zufall δyx1x2x1,,x5δmaskieren Sie die winzigen Abhängigkeiten, von denen wir wissen, dass sie vorhanden sind.) Es gibt keine außergewöhnlichen Daten - nichts schrecklich Außergewöhnliches oder mit hoher Hebelwirkung. Die Histogramme zeigen übrigens, dass alle sechs Variablen ungefähr normal verteilt sind: Diese Daten sind so normal und "normal vanille", wie man es sich nur wünschen kann.

Bei der Regression von gegen x 1 und x 2 sind die p-Werte im Wesentlichen 0. Bei den einzelnen Regressionen von y gegen x 3 , dann von y gegen x 4 und von y gegen x 5 sind die p-Werte 0,0024, 0,0083 bzw. 0,00064: das heißt, sie sind "hoch signifikant". Bei der vollständigen multiplen Regression steigen die entsprechenden p-Werte jedoch auf 0,46, 0,36 bzw. 0,52 an: überhaupt nicht signifikant. Der Grund dafür ist, dass einmal y gegen x 1 und x zurückgegangen istyx1x2yx3yx4yx5yx1 Fig. 2 ist das einzige, was noch zu "erklären" übrig ist, die winzige Fehlermenge in den Residuen, die sich ε annähert , und dieser Fehler hängt fast gar nicht mit dem verbleibenden x i zusammen . ( „Fast“ korrekt: es gibt eine wirklich winzige Beziehung aus der Tatsache hervorgerufen, daß die Residuen teilweise von den Werten der berechneten wurden x 1 und x 2 und x i , i = 3 , 4 , 5 , einige schwachen haben Beziehung zu x 1 und x 2. Diese verbleibende Beziehung ist jedoch, wie wir gesehen haben, praktisch nicht nachweisbar.)x2εxix1x2xii=3,4,5x1x2

Die Konditionierungszahl der Designmatrix beträgt nur 2,17: Das ist sehr niedrig und zeigt keinerlei Hinweis auf eine hohe Multikollinearität. (Perfekter Mangel an Kollinearität würde sich in einer Konditionierungszahl von 1 widerspiegeln. In der Praxis ist dies jedoch nur bei künstlichen Daten und geplanten Experimenten zu beobachten. Konditionierungszahlen im Bereich von 1 bis 6 (oder höher, mit mehr Variablen) sind unauffällig.) Damit ist die Simulation abgeschlossen: Es wurde jeder Aspekt des Problems erfolgreich reproduziert.

Zu den wichtigen Erkenntnissen, die diese Analyse bietet, gehören:

  1. p-Werte sagen nichts direkt über die Kollinearität aus. Sie hängen stark von der Datenmenge ab.

  2. Beziehungen zwischen p-Werten in multiplen Regressionen und p-Werten in verwandten Regressionen (die Teilmengen der unabhängigen Variablen umfassen) sind komplex und normalerweise nicht vorhersehbar.

Folglich sollten, wie andere argumentiert haben, p-Werte nicht Ihr einziger Leitfaden (oder sogar Ihr Hauptleitfaden) für die Modellauswahl sein.


Bearbeiten

Es ist nicht erforderlich, dass 500 beträgt , damit diese Phänomene auftreten. n500 Angeregt durch zusätzliche Informationen in der Frage ist das Folgende ein ähnlich aufgebauter Datensatz mit (in diesem Fall x j = 0,4 x 1 + 0,4 x 2 + δ für j = 3 , 4 , 5 ). Dies erzeugt Korrelationen von 0,38 bis 0,73 zwischen x 1 - 2 und x 3 - 5n=24xj=0.4x1+0.4x2+δj=3,4,5x12x35. Die Bedingungsnummer der Designmatrix ist 9.05: etwas hoch, aber nicht schrecklich. (Einige Faustregeln besagen, dass Bedingungszahlen bis zu 10 in Ordnung sind.) Die p-Werte der einzelnen Regressionen gegen sind 0,002, 0,015 und 0,008: signifikant bis hoch signifikant. Somit ist eine gewisse Multikollinearität involviert, die jedoch nicht so groß ist, dass man daran arbeiten würde, sie zu ändern. Die grundsätzliche Einsicht bleibt gleichx3,x4,x5: Bedeutung und Multikollinearität sind verschiedene Dinge; nur milde mathematische Zwänge gelten unter ihnen; und es ist möglich, dass der Einschluss oder Ausschluss einer einzelnen Variablen tiefgreifende Auswirkungen auf alle p-Werte hat, auch ohne dass schwerwiegende Multikollinearität ein Problem darstellt.

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185
whuber
quelle
Wenn ich an der Erklärung der Beziehungen zwischen diesen Variablen und ihrer Bedeutung für die Vorhersage des y arbeite, sagt mir der Mangel an Kollinearität im Wesentlichen, was mir die anfängliche multiple lineare Regression sagte: dass nur zwei Variablen wichtig sind? Wenn die Variablen Kollinearität zeigen würden, würden dann mehrere wichtig sein, aber ähnliche Informationen liefern? Bitte lassen Sie mich wissen, wenn ich den Punkt völlig verpasse - ich bin keineswegs ein Statistik-Experte.
cryptic_star
Oh, und ich werde dies in meinen ursprünglichen Beitrag einfügen, aber mein n ist 24 (menschliche Fächer funktionieren, das ist also ziemlich hoch). Aufgrund Ihres Beitrags kann ich davon ausgehen, dass aus diesem Grund Multikollinearitätsexperten vorschlagen, mehr Daten zu erhalten, um Unterschiede besser hervorzuheben.
cryptic_star
Ich gebe ein neues Beispiel, das zeigt, wie Ihre Phänomene auch bei . Es könnte leicht modifiziert werden, so dass alle beteiligten Zahlen positive ganze Zahlen sind: zählt, das heißt. n=24
whuber
1
Re Ihr erster Kommentar: Kollinearität einige der erklärenden Variablen schlägt vor (IVs) redundant sein können, aber das ist nicht unbedingt der Fall. Was zählt, sind die Beziehungen zwischen den IVs und der abhängigen Variablen (DV). Es ist möglich, dass eine der IVs stark von den anderen IVs abhängig ist und dennoch einzigartig nützliche Informationen zum DV enthält. Dies ist ein kritisches Konzept: Keine Analyse der Beziehungen zwischen den IVs allein wird Ihnen sagen, welche Variablen die DV am besten erklären. Mangelnde Kollinearität - eine Eigenschaft ausschließlich der IVs - verrät nichts über den DV.
Whuber
9

Habe ich oder habe ich kein Multikollinearitätsproblem? Wenn ja, wie soll ich dann vorgehen?

Es ist keine Entweder-Oder-Situation. Und ich bin skeptisch gegenüber der Richtlinie "4 oder 5". Für jeden Ihrer Prädiktoren liegt der Standardfehler des Koeffizienten zwischen dem 2,2- und dem 5,6-fachen des Werts, der für den Prädiktor ohne Korrelation mit den anderen gelten würde. Und der Anteil eines bestimmten Prädiktors, der von den anderen nicht erklärt werden kann, reicht von 1 / 2,2 bis 1 / 5,6 oder 18% bis 45%. Alles in allem scheint das eine ziemlich erhebliche Menge an Kollinearität zu sein.

Aber lassen Sie uns einen Moment zurücktreten. Versuchen Sie wirklich , * Y * vorherzusagen , anstatt zu versuchen , es zu erklären ? Wenn dies der Fall ist, müssen Sie sich vermutlich nicht darum kümmern, ob sich das Signifikanzniveau einer bestimmten Variablen ändert, wenn andere im Modell vorhanden sind. Ihre Arbeit ist wirklich viel einfacher, als es wäre, wenn eine wahre Erklärung benötigt würde.

Wenn die Erklärung Ihr Ziel ist, müssen Sie die Art und Weise berücksichtigen, in der sich diese Variablen gegenseitig beeinflussen. Dies erfordert mehr als statistische Informationen. Offensichtlich überlappen sie sich in der Art, wie sie sich auf Y beziehen , und diese Kollinearität wird es schwierig machen, zum Beispiel ihre Rangordnung für die Berücksichtigung von Y zu bestimmen . In dieser Situation gibt es niemanden, dem Sie folgen können.

Ich hoffe auf jeden Fall, dass Sie über Methoden zur Kreuzvalidierung nachdenken.

rolando2
quelle
Diese Antwort scheint, wie Johns, niedrige p-Werte mit hoher Korrelation zu verwechseln. Denken Sie daran: Die Standardfehler der Koeffizienten nehmen mit zunehmender Datenmenge ab ( caeteris paribus ), sodass die niedrigen p-Werte mit Daten erzielt werden können, die nahezu keine Korrelationen aufweisen, sofern genügend Beobachtungen vorliegen.
whuber
Niedrige p-Werte mit hoher Korrelation verwechseln? Pas du tout!
Rolando2
Erklären Sie dann bitte, wie ein streng p-wertiges Konzept ("der Standardfehler des Koeffizienten ist zwischen 2,2 und 5,6 Mal so groß wie wenn der Prädiktor nicht mit den anderen korreliert wäre") zu dem Schluss führt, dass "das ziemlich substanziell erscheint Grad der Kollinearität ", der in engem Zusammenhang mit der Korrelation steht (Maß für die Kollinearität sind Eigenschaften der Korrelationsmatrix, wenn die Variablen standardisiert sind).
whuber
Ich sehe es so. Wenn VIF 5,6 beträgt, können 82% der Varianz in diesem Prädiktor von den anderen Prädiktoren berücksichtigt werden. Ich verstehe nicht, wie das von N.
Rolando2 13.03.12
1
Als Kontrapunkt zu dieser pessimistischen Einschätzung (die einige Rechtfertigungen in Faustregeln hat, z. B. das 5- bis 10-fache der Anzahl von Beobachtungen als Variablen) ist bemerkenswert, dass ganze Bereiche der Modellierung und Datenanalyse um wenige Probleme gewachsen sind Beobachtungen und viele Prädiktoren, wie DACE (Design und Analyse von Computerexperimenten). Ein wegweisendes Papier finden Sie unter ressources-actuarielles.net/EXT/ISFA/1226.nsf/… .
whuber
6

Sie haben Multikollinearität. Ihre erste Analyse hat dies gezeigt. Soweit es ein Problem ist, ist dies eine andere Frage, die in Ihrem Fall viele Antworten zu haben scheint.

Wenn Sie das Grundproblem besser hätten, wäre es vielleicht offensichtlicher, was zu tun ist? ...

Bei der Multikollinearität handelt es sich bei Ihren Regressionskoeffizienten um die eindeutigen (näher an eindeutigen) Beiträge jeder Variablen zu Ihrem Modell. Wenn einige miteinander korreliert sind, dann ist der einzigartige Beitrag jedes korrelierten Individuums kleiner. Das ist wahrscheinlich teilweise der Grund, warum keine von Bedeutung ist, wenn sie alle zusammen sind, aber wenn sie alleine verwendet werden, können sie es sein.

Das erste, was Sie wahrscheinlich tun müssen, ist zu überlegen, was die Wechselbeziehung zwischen Ihren Variablen bedeutet. Haben Sie zum Beispiel eine Reihe von Variablen, die nur für dasselbe stehen? Haben Sie gerade Ihre Prädiktoren in einem schlechten Maßstab gemessen und zufällige Korrelationen erhalten? Versuchen Sie nicht, die Regression zu korrigieren, sondern verstehen Sie Ihre Variablen.

Betrachten Sie X1 und X2 mit einer sehr starken Korrelation zwischen ihnen, sagen wir r = 0,90. Wenn Sie X1 in das Modell einfügen und es sich um einen signifikanten Prädiktor handelt, ist wahrscheinlich auch ein anderes Modell mit X2 von Bedeutung, da es fast dasselbe ist. Wenn Sie sie im Modell zusammenfügen, muss mindestens einer von ihnen leiden, da die multiple Regression ihre einzigartigen Beiträge auflösen wird. Sie könnten beide nicht signifikant sein. Aber das ist nicht der Punkt, der Punkt ist zu erkennen, warum sie sich so sehr überlappen und ob sie überhaupt etwas anderes sagen und ob Sie sie brauchen oder nicht? Vielleicht drückt einer eine Idee aus, die aussagekräftiger ist und mehr mit Ihrer Antwortvariablen zu tun hat als der andere. Vielleicht schlussfolgern Sie, dass es sich um dasselbe Produkt mit unterschiedlichen Variabilitätsstufen handelt.

Bei der Betrachtung von Modellen jeglicher Art, insbesondere bei interkorrelierten Prädiktoren, sind p-Werte eine schreckliche Methode, um festzustellen, ob ein neuer Prädiktor einen sinnvollen Beitrag leistet (wenn Sie dies versuchen ... nicht sicher, was Sie tun) versuchen es, weil es sich so anhört, als würden Sie nur versuchen, die Regression entweder A) einfach oder B) so zu gestalten, wie Sie es möchten ... beides ist nicht möglich. Am besten schauen Sie sich AIC an, um herauszufinden, welche Prädiktoren Sie behalten sollten und welche nichts beitragen.

John
quelle
Wie zeigen niedrige p-Werte Multikollinearität? Die beiden Konzepte sind völlig unterschiedlich. Mit genügend Daten können Sie niedrige p-Werte und fast keine Kollinearität haben.
whuber
Genau das bestreite ich, John: Sie sind in Ihrem ersten Satz zu dem Schluss gekommen, dass das, was das OP beschreibt, impliziert: "Sie haben Multikollinearität." Aber genau das möchte das OP wissen: "Habe ich oder habe ich kein Multikollinearitätsproblem?" Ich behaupte, dass die richtige Antwort lautet: "Sie haben uns nicht genug Informationen gegeben, aber wahrscheinlich nicht", da die in der Frage beschriebenen Phänomene perfekt mit gut konditionierten Problemen übereinstimmen. In der Tat legen die vom OP gemeldeten niedrigen VIF nahe, dass Ihre Behauptung falsch ist.
whuber
Das habe ich nirgendwo gesagt. Vielleicht meinen Sie, was ich über die erste Analyse gesagt habe. Die erste Analyse war, dass sich die Effekte stark ändern, je nachdem, welche anderen Effekte hinzugefügt wurden. Das lag an der Multi-Kollinearität (obwohl sie es nicht quantifiziert). Natürlich ist die Bedeutung ein anderes Thema. Ich weiß wirklich nicht, worauf du hinaus willst?
John
Sorry, Whuber, für das Aktualisieren des Kommentars, aber dein Kommentar funktioniert trotzdem einwandfrei. Ich habe mich nur auf das Wort "Problem" konzentriert. Multikollinearität ist etwas, das Sie quantifizieren. Es gibt einige. Es empfiehlt sich, die Variablen trotzdem genau zu überdenken. Dies legt auch nahe, dass der Grund, warum sich additive Prädiktoren beim Hinzufügen oder Entfernen ändern, in dieser Multikollinearität liegt. Ich hatte nicht den Eindruck, dass der Fragesteller wirklich eine Antwort darauf haben wollte, dass es sich um ein Berechnungs- "Problem" handelte.
John
Es ist möglich, dass wir die Frage unterschiedlich interpretieren, John. Da ich das Problem nicht durch meine Kommentare verwechseln möchte, fügte ich eine Antwort hinzu, um meinen Standpunkt zu erläutern.
Whuber
2

Persönlich würde ich Bedingungsindizes und die Tabelle mit den erklärten Abweichungen verwenden, um die Kollinearität zu analysieren.

Ich würde p-Werte auch nicht als Kriterium für die Modellbildung verwenden, und wenn ich Modelle mit 6 IVs mit Modellen mit 1 vergleiche, würde ich Änderungen in der Effektgröße des Parameters für die Variable untersuchen, die beides ist.

Aber Sie können die Ergebnisse, die Sie erwähnen, ohne Kollinearität haben. Bei der Kollinearität geht es nur um die X-Variablen und ihre Beziehung. Zwei Variablen könnten sich jedoch stark auf Y beziehen, während sie sich nicht stark aufeinander beziehen.

Peter Flom - Reinstate Monica
quelle
1
This seems unintuitive to me, that two variables could relate strongly to Y without relating strongly to each other. Is there an example you could point me to, or a longer explanation?
cryptic_star
@Peter - with 1-(1/5.6) = 82% of the variance in that last predictor explained by the others, why do you say there might not be collinearity?
rolando2
3
Allie, that's a good question. Take two unrelated variables x1 and x2, of comparable variances, and form y=x1+x2. Now y is strongly related to each of x1 and x2 without x1 and x2 having any relation at all.
whuber
0

Regarding multicollinearity there are various thresholds being mentioned usually converging around a VIF of 10 corresponding to an underlying R Square value of 0.90 between the tested variable vs the other independent variables. The VIFs of your variables appear passable, and you could technically keep them in a model.

Yet, I would use a stepwise regression method to see which are the best combination of variables and how much more explanation (incremental increase in R Square) you get by adding variables. The arbitrating benchmark should be the Adjusted R Square value that adjusts the R Square value downward by penalizing the model for adding variables.

Your variables are somewhat correlated with each other. This is inevitable, it is just a matter of degree. Given the VIFs you mention, I suspect intuitively that you will get the vast majority of the information/explanation bit from the best 2 variable combination. And, that adding variables may add only marginal incremental value.

When looking at the combination of variables that are selected by the stepwise regression process, I would also look at what variables are selected and if their regression coefficient signs are consistent with their correlation with y. If they are not, it can be due to a legitmate interaction between the variables. But, it could also be a result of model overfitting and that the regression coefficients are spurious. They reflect a mathematical fit, but are meaningless in terms of underlying causality.

Another way to select your variables is to decide from a logic standpoint which ones are the main 2 or 3 variables that should be in the model. You start with those and then check how much more information do you get by adding a variable. Check the adjusted R Square, consistency of the regression coefficient relative to the original regression, and obviously test all the models with hold out period. Pretty soon, it will be evident what is your best model.

Sympa
quelle
4
Ich bin nicht einverstanden, dass ein automatisches schrittweises Auswahlverfahren vorzuziehen wäre. In einem solchen Fall würden Sie die Auswahl anhand einer Zufallsvariablen treffen, was viele Probleme verursacht. Ich diskutiere dieses Phänomen hier . Wenn die schrittweise Auswahl trotzdem angewendet würde, würde ich die Verwendung des AIC anstelle von empfehlenReindj2, as the steeper penalty would be more appropriate; however, I do not recommend using stepwise selection.
gung - Reinstate Monica
Many of the problems you outline are common to linear regressions model in general. I am not sure that such technical problems are reasons to throw out all stepwise regression methods and linear regression in general. I am unclear why stepwise regression "is selecting based on a random variable, which causes a lot of problems." Stepwise finds the best fit, like any model does. What I think is more important is to ensure that the mathematical fit corresponds to the underlying theory or logic of the problem you are solving for.
Sympa
3
I can edit it if need be, but the problems quoted are not about linear models in general, just stepwise selection. I do not advocate throwing out linear regression. Stepwise algorithms return highly biased betas & inaccurate CIs that are largely impossible to correct. R2, Radj2, F, p, etc. are random variables: if you get more data from the same data generating process & fit an identical model repeatedly, these values will vary. Selecting a model based on them incorporates error in ways that eliminate the value of the model. I do agree w/ using theory & logic to select a model.
gung - Reinstate Monica
gung, I am not sure we are talking of the same thing. I am using Stepwise Regression in two ways. One is manual, you build a model using the best regressor. And, you add on to it using the 2nd best variable that best explain the error of the first model. And, you keep going till your AIC score deteriorates. The 2nd method I have used is using XLStat software that automates the process and was developed by Thierry Fahmy and his team. He has I understand a PhD in math along with others on his team. And, I am not confident they would have fallen into all the traps you mentioned.
Sympa
2
Gaetan, I think what @gung is trying to say is that stepwise methods may cause severe damage to the initial statistical regression framework (loss function, p-values, etc.). See Frank Harrell's response and comments here. Penalized regression, as discussed in several threads, might be a good alternative. "(...) software that automates the process" reminds me of R fortune(224): no troll here, just want to highlight that you don't necessarily need to trust what software automagically gives (or offers) you as an option.
chl
0

If your explanatory variables are count data, and it is not unreasonable to assume that they are normally distributed, you can transform them into standard normal variates using the R scale command. Doing this can reduce the collinearity. But that will probably not solve the whole problem.

A useful batch of R commands for analyzing and dealing with collinearity are found on Florian Jaeger's blog, including:

z. <- function (x) scale(x)
r. <- function (formula, ...) rstandard(lm(formula, ...))

The z. function converts a vector into a standard normal variate. The r. function returns standardized residuals for regressing one predictor against another. You can use this to effectively divide the model deviance into different tranches so that only some variables have access to the most senior tranche, then the next tranche will be offered to residualized variables. (Sorry for my homespun terminology) So if a model of the form

Y ~ A + B

suffers from multicollinearity, then you can run either of

Y ~ A + r.(B)
Y ~ r.(A) + B

so that only the residuals of the "junior tranche" variable (when regressed against the "senior tranche" variable) are fitted to the model. This way, you are shielded from multicollinearity, but have a more complicated set of parameters to report.


quelle