Was bewirkt die Korrelation von Prädiktoren in einem multiplen Regressionsmodell?

45

In meiner Klasse für lineare Modelle habe ich gelernt, dass wenn zwei Prädiktoren korreliert sind und beide in einem Modell enthalten sind, einer unbedeutend ist. Nehmen Sie zum Beispiel an, dass die Größe eines Hauses und die Anzahl der Schlafzimmer miteinander korreliert sind. Wenn Sie die Kosten eines Hauses mit diesen beiden Prädiktoren vorhersagen, kann einer von ihnen fallengelassen werden, da beide die gleichen Informationen liefern. Das ist intuitiv sinnvoll, aber ich habe noch einige technische Fragen:

  1. Wie äußert sich dieser Effekt in p-Werten der Regressionskoeffizienten, wenn nur einer oder beide Prädiktoren in das Modell einbezogen werden?
  2. Wie wird die Varianz der Regressionskoeffizienten beeinflusst, wenn beide Prädiktoren in das Modell einbezogen werden oder nur einer vorhanden ist?
  3. Woher weiß ich, welchen Prädiktor das Modell als weniger signifikant auswählt?
  4. Wie ändert die Einbeziehung nur eines oder beider Prädiktoren den Wert / die Varianz meiner prognostizierten Kosten?
Vivek Subramanian
quelle
6
Antworten auf einige Ihrer Fragen wurden in anderen Threads veröffentlicht, z. B. unter stats.stackexchange.com/a/14528 , in dem eine Situation beschrieben wird, in der jeder einzelne Satz von nur schwach korrelierten Prädiktoren unbedeutend zu sein scheint, obwohl sie zusammengehören im Modell. Es ist eine gute Reihe von Fragen, die jedoch zu einer Vielzahl von Überlegungen und Techniken führen. ganze Bücher sind darüber geschrieben worden. Siehe zum Beispiel Frank Harrells Regressionsmodellierungsstrategien .
Whuber
1
Anhand der Hausgröße und der Schlafzimmer können Sie erkennen, dass keine Bedeutungslosigkeit garantiert ist, wenn die Korrelation von 1 oder -1 abweicht. Es gibt tatsächlich Häuser mit 2 und 3 Schlafzimmern mit derselben Größe, und ihre Kosten können (erheblich) unterschiedlich sein, wodurch beide Prädiktoren von Bedeutung sind. Die Größe in Quadratmetern und die Größe in Quadratfuß haben jedoch die Korrelation = 1, und einer von ihnen kann immer fallengelassen werden.
Pere

Antworten:

38

Das Thema, nach dem Sie fragen, ist Multikollinearität . Möglicherweise möchten Sie einige der Themen im Lebenslauf lesen, die unter dem Tag kategorisiert sind . @whubers Antwort im Besonderen ist auch Ihre Zeit wert.


Die Behauptung, dass "wenn zwei Prädiktoren korrelieren und beide in einem Modell enthalten sind, wird einer unwichtig sein", ist nicht korrekt. Wenn es einen realen Effekt einer Variablen gibt, ist die Wahrscheinlichkeit, dass die Variable signifikant ist, eine Funktion verschiedener Dinge, wie beispielsweise der Stärke des Effekts, der Stärke der Fehlervarianz, der Varianz der Variablen selbst und der Datenmenge Sie haben und die Anzahl der anderen Variablen im Modell. Ob die Variablen korreliert sind, ist ebenfalls relevant, setzt diese Fakten jedoch nicht außer Kraft. Betrachten Sie die folgende einfache Demonstration in R:

library(MASS)    # allows you to generate correlated data
set.seed(4314)   # makes this example exactly replicable

# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20,   mu=c(0,0), Sigma=rbind(c(1.00, 0.70),    # r=.70
                                            c(0.70, 1.00)) )
X1 = mvrnorm(n=100,  mu=c(0,0), Sigma=rbind(c(1.00, 0.87),    # r=.87
                                            c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95),    # r=.95
                                            c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20)    # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100)   #  but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000)  #  related to the 1st

# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X0[, 1]       0.6614     0.3612   1.831   0.0847 .     # neither variable
# X0[, 2]       0.4215     0.3217   1.310   0.2075       #  is significant
summary(lm(y1~X1[,1]+X1[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X1[, 1]      0.57987    0.21074   2.752  0.00708 **    # only 1 variable
# X1[, 2]      0.25081    0.19806   1.266  0.20841       #  is significant
summary(lm(y2~X2[,1]+X2[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X2[, 1]      0.60783    0.09841   6.177 9.52e-10 ***   # both variables
# X2[, 2]      0.39632    0.09781   4.052 5.47e-05 ***   #  are significant

N


X1X2R2X11/(1-R2)X110X110×X1

Zu überlegen, was passieren würde, wenn Sie beide korrelierten Variablen und nur eine einbeziehen, ist ähnlich, aber etwas komplizierter als der oben beschriebene Ansatz. Dies liegt daran, dass das Modell ohne Variable weniger Freiheitsgrade verwendet, wodurch die Restvarianz und alles, was daraus berechnet wird (einschließlich der Varianz der Regressionskoeffizienten), geändert wird. Wenn die nicht eingeschlossene Variable tatsächlich mit der Antwort verknüpft ist, wird die Varianz in der Antwort aufgrund dieser Variablen in die Restvarianz einbezogen, wodurch sie größer wird, als dies sonst der Fall wäre. Somit ändern sich mehrere Dinge gleichzeitig (die Variable ist mit einer anderen Variablen korreliert oder nicht, und die Restvarianz), und die genaue Auswirkung des Ablegens / Einschließens der anderen Variablen hängt davon ab, wie diese abgewickelt werden.


Hier finden Sie Antworten auf Ihre Fragen, die mit dem Verständnis des VIF ausgestattet sind:

  1. Da die Varianz der Stichprobenverteilung des Regressionskoeffizienten größer wäre (um einen Faktor des VIF), wenn sie mit anderen Variablen im Modell korreliert wäre, wären die p-Werte höher (dh weniger signifikant) als sonst .
  2. Die Varianzen der Regressionskoeffizienten wären, wie bereits diskutiert, größer.
  3. Y.
  4. Wie sich die vorhergesagten Werte und ihre Varianz ändern würden, ist ziemlich kompliziert. Dies hängt davon ab, wie stark die Variablen korreliert sind und wie sie Ihrer Antwortvariablen in Ihren Daten zugeordnet zu sein scheinen. In Bezug auf dieses Problem kann es hilfreich sein, meine Antwort hier zu lesen: Gibt es einen Unterschied zwischen dem Kontrollieren und dem Ignorieren anderer Variablen bei der multiplen Regression?
gung - Wiedereinsetzung von Monica
quelle
5

Dies ist eher ein Kommentar, aber ich wollte ein Diagramm und etwas Code einfügen.

Ich denke, die Aussage "wenn zwei Prädiktoren korrelieren und beide in einem Modell enthalten sind, wird einer unwichtig sein" ist falsch, wenn Sie "nur einen" meinen. Die binäre statistische Signifikanz kann nicht für die Variablenauswahl verwendet werden.

Hier ist mein Gegenbeispiel mit einer Regression des Körperfettanteils am Oberschenkelumfang, der Hautfalzendicke * und des Mittelarmumfangs:

. webuse bodyfat, clear
(Body Fat)

. reg bodyfat thigh triceps midarm

      Source |       SS       df       MS              Number of obs =      20
-------------+------------------------------           F(  3,    16) =   21.52
       Model |  396.984607     3  132.328202           Prob > F      =  0.0000
    Residual |  98.4049068    16  6.15030667           R-squared     =  0.8014
-------------+------------------------------           Adj R-squared =  0.7641
       Total |  495.389513    19  26.0731323           Root MSE      =    2.48

------------------------------------------------------------------------------
     bodyfat |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       thigh |  -2.856842   2.582015    -1.11   0.285    -8.330468    2.616785
     triceps |   4.334085   3.015511     1.44   0.170    -2.058512    10.72668
      midarm |  -2.186056   1.595499    -1.37   0.190    -5.568362     1.19625
       _cons |   117.0844   99.78238     1.17   0.258    -94.44474    328.6136
------------------------------------------------------------------------------

. corr bodyfat thigh triceps midarm 
(obs=20)

             |  bodyfat    thigh  triceps   midarm
-------------+------------------------------------
     bodyfat |   1.0000
       thigh |   0.8781   1.0000
     triceps |   0.8433   0.9238   1.0000
      midarm |   0.1424   0.0847   0.4578   1.0000


. ellip thigh triceps, coefs plot( (scatteri `=_b[thigh]' `=_b[triceps]'), yline(0, lcolor(gray)) xline(0, lcolor(gray)) legend(off))

Bildbeschreibung hier eingeben

Wie Sie der Regressionstabelle entnehmen können, ist alles unbedeutend, obwohl die p-Werte ein wenig variieren.

β

Woher wissen wir also, welche Prädiktoren weniger wichtig sind? Die Variation in einem Regressor kann in zwei Typen eingeteilt werden:

  1. Die Variation ist für jeden Regressor einzigartig
  2. Variation, die von den Regressoren geteilt wird

R2


* Die Hautfalte ist die Breite einer Hautfalte, die über dem Trizepsmuskel abgenommen und mit einem Messschieber gemessen wird.

Dimitriy V. Masterov
quelle
Ich mag Ihr Beispiel, aber genau genommen wäre es ein Gegenbeispiel, wenn die Aussage in der ursprünglichen Frage "wenn [...] nur eine unbedeutend ist" lautet, aber das Wort "nur" fehlt.
Amöbe sagt Reinstate Monica
@amoeba Das ist ein ausgezeichneter Punkt. Ich werde meinen Kommentar ändern.
Dimitriy V. Masterov
Können Sie eine Formel zur weiteren Veranschaulichung bereitstellen: "Bei der Schätzung der Koeffizienten jedes Regressors wird nur der erste verwendet. Häufige Abweichungen werden ignoriert, da sie nicht zugeordnet werden können"
mac
3

Wie @whuber bemerkte, ist dies eine komplexe Frage. Der erste Satz Ihres Beitrags ist jedoch eine enorme Vereinfachung. Es ist häufig der Fall, dass zwei (oder mehr) Variablen korreliert werden und beide mit der abhängigen Variablen zusammenhängen. Ob sie signifikant sind oder nicht, hängt sowohl von der Effektgröße als auch von der Zellgröße ab.

Nehmen Sie in Ihrem Beispiel an, dass für eine bestimmte Hausgröße weniger Räume bevorzugt werden (zumindest in NYC ist dies nicht unangemessen - es würde auf ältere Gebäude, festere Mauern usw. hinweisen und könnte ein Marker für die Nachbarschaft sein). Dann könnten beide in entgegengesetzte Richtungen von Bedeutung sein!

Angenommen, die beiden Variablen waren Hausgröße und Wohngegend - dies wären sicherlich größere Häuser in besseren Wohngegenden -, aber sie könnten dennoch beide signifikant sein und würden sicherlich beide mit dem Immobilienpreis in Beziehung stehen.

Außerdem werden nur "korrelierte" Maskenkomplexitäten verwendet. Variablen können stark miteinander verknüpft werden, ohne dass sie miteinander korrelieren.

Peter Flom - Wiedereinsetzung von Monica
quelle