Warum liegt bei der multiplen linearen Regression eine grafische Darstellung der vorhergesagten Punkte nicht auf einer geraden Linie?

Ich benutze multiple lineare Regression, um Beziehungen zwischen Y und X1, X2 zu beschreiben.

Aus der Theorie habe ich verstanden, dass multiple Regression lineare Beziehungen zwischen Y und jedem von X (Y und X1, Y und X2) annimmt. Ich verwende keine Transformation von X.

Also bekam ich das Modell mit R = 0,45 und allen signifikanten X (P <0,05). Dann habe ich Y gegen X1 geplottet. Ich verstehe nicht, warum rot gefärbte Kreise, die Vorhersagen des Modells sind, keine Linie bilden. Wie ich bereits sagte, habe ich erwartet, dass jedes Paar von Y und X durch eine Linie angepasst wird.

Der Plot wird in Python folgendermaßen generiert:

fig, ax = plt.subplots()
plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], 'ro');
ax.set_title('blue: true,   red: OLS')
ax.set_xlabel('X')
ax.set_ylabel('Y')
plt.show()

regression multiple-regression python linear Klausos
quelle

Können Sie den Code posten, den Sie für die Darstellung / Analyse verwendet haben? Die roten und blauen Linien sehen aus wie Jitter voneinander. Der Code hinter diesem Plot könnte also helfen, Ihr Problem besser zu beantworten.

Dawny33

Sie würden eine Linie nur erwarten, wenn entweder (i) angenommen wird, dass der Wert des anderen Prädiktors für jeden vorhergesagten Punkt gleich ist (und wenn Sie versuchen, andere Werte von anzunehmen, erhalten Sie eine andere Linie), oder (ii) Wenn Sie Vorhersagen für Ihre tatsächlichen Daten verwenden, aber die Abweichungen in "teilweise" ausgleichen (dh ausgleichen) , ist dies ein Teil-Regressionsdiagramm oder ein Diagramm mit hinzugefügten Variablen . Ohne genau zu wissen, wie Sie diesen Plot erstellt haben, ist es nicht möglich zu wissen, was Ihr Problem ist, wie @ dawny33 sagt

x_{2}

$x_2$

x_{2}

$x_2$

x_{2}

$x_2$

Silverfish

Ich denke der Kommentar von @Silverfish ist richtig; in drei Dimensionen repräsentiert eine Ebene . Wenn Sie auf zwei Dimensionen reduzieren, projizieren Sie die Ebene in drei Dimensionen ( ) in die Ebene zB . Dies ist nur dann eine Linie, wenn orthogonal zur Ebene.

y = β_{0} + β_{1} x_{1} + β_{2} x_{2}

$y=\beta_0+\beta_1 x_1 + \beta_2 x_2$

P

$\mathcal{P}$

P

$\mathcal{P}$

(y, x_{1})

$(y,x_1)$

P

$\mathcal{P}$

(y, x_{1})

$(y,x_1)$

@ Dawny33: gebucht.

Klausos

@f coppens: Danke. Warum sagt die Literatur dann, dass ein multiples lineares Regressionsmodell lineare Beziehungen zwischen Y und jedem von X (Y und X1, Y und X2) annimmt?

Klausos

Angenommen, Ihre multiple Regressionsgleichung war

\hat{y} = 2 x_{1} + 5 x_{2} + 3

$\hat y = 2 x_1 + 5 x_2 + 3$

Wobei "vorhergesagtes " bedeutet. $\hat y$ $y$

Nehmen Sie nun nur die Punkte, für die . Wenn Sie dann gegen zeichnen , erfüllen diese Punkte die Gleichung: $x_2 = 1$ $\hat y$ $x_1$

\hat{y} = 2 x_{1} + 5 (1) + 3 = 2 x_{1} + 8

$\hat y = 2 x_1 + 5(1) + 3 = 2 x_1 + 8$

Sie müssen also auf einer Linie der Steigung 2 und mit dem Achsenabschnitt 8 liegen. $y$

Nehmen Sie nun die Punkte, für die . Wenn Sie gegen plotten , erfüllen diese Punkte: $x_2 = 2$ $\hat y$ $x_1$

\hat{y} = 2 x_{1} + 5 (2) + 3 = 2 x_{1} + 13

$\hat y = 2 x_1 + 5(2) + 3 = 2 x_1 + 13$

Das ist also eine Linie von Steigung 2 und mit Achsenabschnitt 13. Sie können selbst überprüfen, ob bei eine andere Linie von Steigung 2 und Achsenabschnitt 18 erhalten wird. $y$ $x_2=3$ $y$

Wir sehen, dass Punkte mit unterschiedlichen Werten von auf unterschiedlichen Linien liegen, aber alle mit demselben Gradienten: Die Bedeutung des Koeffizienten von in der ursprünglichen Regressionsgleichung ist, dass ceteris paribus, dh andere Prädiktoren konstant halten, eine Einheit größer wird erhöht die vorhergesagte mittlere Antwort um zwei Einheiten, während die Bedeutung des Abschnitts von in der Regressionsgleichung war, dass wenn und dann die vorhergesagte mittlere Antwort . Aber nicht alle deine Punkte haben das gleiche $x_2$ $2x_1$ $x_1$ $\hat y$ $3$ $x_1 = 0$ $x_2 = 0$ $3$ $x_2$ Dies bedeutet, dass sie auf Linien mit einem anderen Schnittpunkt liegen - die Linie hätte nur den Schnittpunkt für die Punkte, für die . Anstatt eine einzelne Linie zu sehen, sehen Sie möglicherweise (wenn es nur bestimmte Werte von , z. B. wenn immer eine Ganzzahl ist) eine Reihe von diagonalen "Streifen". Betrachten Sie die folgenden Daten, wobei . $3$ $x_2=0$ $x_2$ $x_2$ $\hat y = 2 x_1 + 5 x_2 + 3$

Hier gibt es wahrnehmbare "Streifen". Wenn ich nun die Punkte, für die als rote Kreise, als goldene Dreiecke und als blaue Quadrate einfärbe, sehen wir, dass sie auf drei verschiedenen Linien liegen, alle mit Steigung 2 und Abschnitten 8, 13 und 18 wie oben berechnet. Wenn nicht gezwungen wäre, ganzzahlige Werte anzunehmen, oder die Situation durch die Einbeziehung anderer Prädiktorvariablen in die Regression kompliziert wäre, wäre die diagonale Streifenbildung natürlich weniger klar, aber es wäre immer noch so, dass jeder vorhergesagte Punkt liegt auf einer separaten Linie basierend auf den Werten der anderen Prädiktoren, die in der Grafik nicht angezeigt werden . $x_2=1$ $x_2=2$ $x_2=3$ $y$ $x_2$

Wenn Sie einen dreidimensionalen Graphen von gegen und zeichnen , liegen Ihre vorhergesagten Punkte alle in der zweidimensionalen Ebene mit der Gleichung . Das oben beschriebene Diagramm versus ist eine Projektion dieses dreidimensionalen Diagramms auf zwei Dimensionen. Stellen Sie sich vor, Sie richten sich mit der Achse aus, sodass Sie direkt nach unten schauen, während die Achse nach oben und die Achse zeigt zeigt nach rechts $y$ $x_1$ $x_2$ $\hat y = 2 x_1 + 5 x_2 + 3$ $y$ $x_1$ $x_2$ $y$ $x_1$

Beachten Sie, dass alle Punkte genau deshalb in einer flachen Ebene liegen, weil ich die angepassten (dh vorhergesagten) Werte gezeichnet habe . Wenn wir einen Plot mit den beobachteten Werten zeichnen, liegen diese vertikal über oder unter diesen Punkten, je nachdem, ob der Rest positiv oder negativ ist. $y$ $y$

Die Beziehung zwischen und ist linear, wenn gesteuert wird (dh für die Konstante ist die Beziehung zwischen und eine gerade Linie), was oft als "Herausfiltern" der Wirkung von . Wenn Sie ein Diagramm zeichnen möchten, in dem die Beziehung zwischen und unter Berücksichtigung der Variation in wird, können Sie ein "partielles Regressionsdiagramm" (auch "Diagramm mit hinzugefügten Variablen" genannt) verwenden, in dem die Beziehung zwischen und wird $\hat y$ $x_1$ $x_2$ $x_2$ $\hat y$ $x_1$ $x_2$ $y$ $x_1$ $x_2$ $y$ $x_1$ als eine einzige gerade Linie gezeichnet werden.

Code für R-Parzellen

library(scatterplot3d)

data.df <- data.frame(
  x1 = c(0,2,4,5,8, 1,3,4,7,8, 0,3,5,6,7),
  x2 = c(1,1,1,1,1, 2,2,2,2,2, 3,3,3,3,3)
)

data.df$yhat <- with(data.df, 2*x1 + 5*x2 + 3)

data1.df <- data.df[data.df$x2==1,]
data2.df <- data.df[data.df$x2==2,]
data3.df <- data.df[data.df$x2==3,]

#Before lines added    
mar.default <- c(5,4,4,2) + 0.1
par(mar = mar.default + c(0, 1, 0, 0)) 
plot(data.df[c("x1","yhat")], main=expression("Predicted y against "*x[1]),
     xlab=expression(x[1]), ylab=expression(hat(y)))

#After lines added
plot(data.df[c("x1","yhat")], main=expression("Predicted y against "*x[1]),
     xlab=expression(x[1]), ylab=expression(hat(y)), pch=".")
points(data1.df[c("x1","yhat")], pch=19, col="red")
abline(lm(yhat ~ x1, data=data1.df), col="red")
points(data2.df[c("x1","yhat")], pch=17, col="gold")
abline(lm(yhat ~ x1, data=data2.df), col="gold")
points(data3.df[c("x1","yhat")], pch=15, col="blue")
abline(lm(yhat ~ x1, data=data3.df), col="blue")

#3d plot
myPlot <- scatterplot3d(data.df, pch=".", xlab=expression(x[1]),
                        ylab=expression(x[2]), zlab=expression(hat(y)),
                        main=expression("Predicted y against "*x[1]*" and "*x[2]))
myPlot$plane3d(Intercept=3, x.coef=2, y.coef=5, col="darkgrey")
myPlot$points3d(data1.df, pch=19, col="red")
myPlot$points3d(data2.df, pch=17, col="gold")
myPlot$points3d(data3.df, pch=15, col="blue")
print(myPlot)

Silberfisch
quelle

Nur eine kleine Frage: Mit Flugzeug meinen Sie auch ein Flugzeug, das eine gewisse Krümmung haben kann?

Klausos

Es bedeutet eine "flache" Ebene. Ich werde ein Bild hinzufügen, um es später zu veranschaulichen.

Silverfish

Ich stelle diese Frage nur, damit ich wieder auf diese großartigen Handlungen

zurückgreifen

Warum liegt bei der multiplen linearen Regression eine grafische Darstellung der vorhergesagten Punkte nicht auf einer geraden Linie?

Antworten: