Beziehung zwischen der einfachen Regression und der multiplen Regression

10

Eine sehr grundlegende Frage bezüglich des der OLS-RegressionenR2

  1. Führen Sie die OLS-Regression y ~ x1 aus, wir haben ein , sagen wir 0,3R2
  2. Führen Sie die OLS-Regression y ~ x2 aus. Wir haben ein weiteres , z. B. 0,4R2
  3. Jetzt führen wir eine Regression y ~ x1 + x2 durch. Welchen Wert kann das R-Quadrat dieser Regression haben?

Ich denke, es ist klar, dass der für die multiple Regression nicht weniger als 0,4 betragen sollte, aber ist es möglich, dass er mehr als 0,7 beträgt?R2

Olivier Ma
quelle
2
Hinweis: Es könnte bis zu 1,0 betragen. Warum? (Denken Sie geometrisch. Oder sogar speziell über den Einheitskreis.)
Kardinal

Antworten:

4

Der zweite Regressor kann einfach das ausgleichen, was der erste in der abhängigen Variablen nicht erklären konnte. Hier ist ein numerisches Beispiel:

Erzeugen x1als Standardnormal Regressor, Stichprobengröße 20. Ohne Beschränkung der Allgemeinheit nehmen , wo ist , auch. Nehmen Sie nun den zweiten Regressor einfach als Differenz zwischen der abhängigen Variablen und dem ersten Regressor.u i N ( 0 , 1 )yi=0.5x1i+uiuiN(0,1)x2

n <- 20 
x1 <- rnorm(n)

y <- .5*x1 + rnorm(n)

x2 <- y - x1
summary(lm(y~x1))$r.squared
summary(lm(y~x2))$r.squared
summary(lm(y~x1+x2))$r.squared
Christoph Hanck
quelle
Vielen Dank! Ich hatte ein falsches Verständnis von r im Quadrat. Ich dachte, wenn x1 + x2 = ydann summary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squaredsollte nicht weniger als 1 sein, aber klar bin ich falsch ..
Olivier Ma
3

Abgesehen von der Untergrenze, die entweder 0,3 oder 0,4 beträgt, je nachdem, welche Variable zuerst in das Modell eingeht, können Sie nicht viel sagen. Wie viel steigt, hängt weitgehend von den Informationen ab, die die zweite Variable in das Modell einbringt. Mit Information meinen wir natürlich die erklärte Variation in der Antwort.R2

Es gibt ein Konzept, das in dieser Hinsicht kritisch ist, nämlich die Korrelation zwischen den Prädiktoren. Wenn die Korrelation groß ist, bringt die neue Variable nicht nur nichts in das Modell, sondern erschwert auch die Inferenz für Ihre vorhandenen Variablen, da Schätzungen ungenau werden (Multikollinearität). Aus diesem Grund würden wir es idealerweise vorziehen, wenn die neue Variable orthogonal zu den anderen ist. Die Chancen, dass dies in Beobachtungsstudien geschieht, sind gering, aber es kann in kontrollierten Umgebungen erreicht werden, z. B. wenn Sie Ihr eigenes Experiment erstellen.

Aber wie quantifizieren Sie genau die neuen Informationen, die eine Variable in das Modell bringt? Eine weit verbreitete Maßnahme, die all dies berücksichtigt, ist das partielle R2 . Wenn Sie mit der ANOVA des linearen Modells vertraut sind, ist dies nichts anderes als die proportionale Abnahme der Fehlersumme der Quadrate, die Sie erzielen, wenn Sie diese Variable in Ihr Modell aufnehmen. Hohe Prozentsätze sind wünschenswert, während niedrige Sie wahrscheinlich darüber nachdenken lassen, ob dies die richtige Vorgehensweise ist.

Wie @cardinal in den Kommentaren hervorhob, könnte Ihr neuer Bestimmungskoeffizient so hoch wie 1 sein. Er könnte auch so niedrig wie 0,400001 sein. Ohne zusätzliche Informationen ist dies nicht zu erkennen.

JohnK
quelle
@ JohnK, würde es Ihnen etwas ausmachen, weiter zu erklären, warum es strikt größer als 0,4 sein muss? Würde die geometrische Interpretation der Regression hier helfen?
Dnaiel
@Dnaiel Der Bestimmungskoeffizient nimmt in Bezug auf die Anzahl der Variablen im Modell nicht ab.
JohnK
3

Bestimmungskoeffizient bei multipler linearer Regression: Bei multipler linearer Regression kann der Bestimmungskoeffizient in Form der paarweisen Korrelationen für die Variablen unter Verwendung der quadratischen Form geschrieben werden:

R2=ry,xTrx,x1ry,x,

wobei der Korrelationsvektor zwischen dem Antwortvektor und jedem der erklärenden Vektoren ist und ist die Matrix der Korrelationen zwischen den erklärenden Vektoren (mehr dazu in dieser verwandten Frage ). Im Falle einer bivariaten Regression haben Sie:ry,xrx,x

R2=[rY,X1rY,X2]T[1rX1,X2rX1,X21]1[rY,X1rY,X2]=11rX1,X22[rY,X1rY,X2]T[1rX1,X2rX1,X21][rY,X1rY,X2]=11rX1,X22(rY,X12+rY,X222rX1,X2rY,X1rY,X2).

Sie haben die Richtungen der univariaten Korrelationen in Ihrer Frage nicht angegeben, daher bezeichnen wir ohne Verlust der Allgemeinheit . Einsetzen Ihrer Werte und ergibt:Dsgn(rY,X1)sgn(rY,X2){1,+1}rY,X12=0.3rY,X22=0.4

R2=0.720.12DrX1,X21rX1,X22.

Es ist möglich, dass , da es möglich ist, dass die kombinierten Informationen aus den beiden Variablen größer sind als die Summe ihrer Teile. Dieses interessante Phänomen wird als "Verbesserung" bezeichnet (siehe z. B. Lewis und Escobar 1986 ).R2>0.7

Ben - Monica wieder einsetzen
quelle