Ich benutze multiple lineare Regression, um Beziehungen zwischen Y und X1, X2 zu beschreiben.
Aus der Theorie habe ich verstanden, dass multiple Regression lineare Beziehungen zwischen Y und jedem von X (Y und X1, Y und X2) annimmt. Ich verwende keine Transformation von X.
Also bekam ich das Modell mit R = 0,45 und allen signifikanten X (P <0,05). Dann habe ich Y gegen X1 geplottet. Ich verstehe nicht, warum rot gefärbte Kreise, die Vorhersagen des Modells sind, keine Linie bilden. Wie ich bereits sagte, habe ich erwartet, dass jedes Paar von Y und X durch eine Linie angepasst wird.
Der Plot wird in Python folgendermaßen generiert:
fig, ax = plt.subplots()
plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], 'ro');
ax.set_title('blue: true, red: OLS')
ax.set_xlabel('X')
ax.set_ylabel('Y')
plt.show()
regression
multiple-regression
python
linear
Klausos
quelle
quelle
Antworten:
Angenommen, Ihre multiple Regressionsgleichung war
Wobei "vorhergesagtes " bedeutet. yy^ y
Nehmen Sie nun nur die Punkte, für die . Wenn Sie dann gegen zeichnen , erfüllen diese Punkte die Gleichung:y x 1x2= 1 y^ x1
Sie müssen also auf einer Linie der Steigung 2 und mit dem Achsenabschnitt 8 liegen.y
Nehmen Sie nun die Punkte, für die . Wenn Sie gegen plotten , erfüllen diese Punkte:y x 1x2= 2 y^ x1
Das ist also eine Linie von Steigung 2 und mit Achsenabschnitt 13. Sie können selbst überprüfen, ob bei eine andere Linie von Steigung 2 und Achsenabschnitt 18 erhalten wird.x 2 = 3 yy x2= 3 y
Wir sehen, dass Punkte mit unterschiedlichen Werten von auf unterschiedlichen Linien liegen, aber alle mit demselben Gradienten: Die Bedeutung des Koeffizienten von in der ursprünglichen Regressionsgleichung ist, dass ceteris paribus, dh andere Prädiktoren konstant halten, eine Einheit größer wird erhöht die vorhergesagte mittlere Antwort um zwei Einheiten, während die Bedeutung des Abschnitts von in der Regressionsgleichung war, dass wenn und dann die vorhergesagte mittlere Antwort . Aber nicht alle deine Punkte haben das gleiche 2 x 1 x 1 y 3 x 1 = 0 x 2 = 0 3 x 2 3 x 2 = 0 x 2 x 2 y = 2 x 1 + 5 x 2 + 3x2 2 x1 x1 y^ 3 x1= 0 x2= 0 3 x2 Dies bedeutet, dass sie auf Linien mit einem anderen Schnittpunkt liegen - die Linie hätte nur den Schnittpunkt für die Punkte, für die . Anstatt eine einzelne Linie zu sehen, sehen Sie möglicherweise (wenn es nur bestimmte Werte von , z. B. wenn immer eine Ganzzahl ist) eine Reihe von diagonalen "Streifen". Betrachten Sie die folgenden Daten, wobei .3 x2= 0 x2 x2 y^= 2 x1+ 5 x2+ 3
Hier gibt es wahrnehmbare "Streifen". Wenn ich nun die Punkte, für die als rote Kreise, als goldene Dreiecke und als blaue Quadrate einfärbe, sehen wir, dass sie auf drei verschiedenen Linien liegen, alle mit Steigung 2 und Abschnitten 8, 13 und 18 wie oben berechnet. Wenn nicht gezwungen wäre, ganzzahlige Werte anzunehmen, oder die Situation durch die Einbeziehung anderer Prädiktorvariablen in die Regression kompliziert wäre, wäre die diagonale Streifenbildung natürlich weniger klar, aber es wäre immer noch so, dass jeder vorhergesagte Punkt liegt auf einer separaten Linie basierend auf den Werten der anderen Prädiktoren, die in der Grafik nicht angezeigt werden .x 2 = 2 x 2 = 3 y x 2x2= 1 x2= 2 x2= 3 y x2
Wenn Sie einen dreidimensionalen Graphen von gegen und zeichnen , liegen Ihre vorhergesagten Punkte alle in der zweidimensionalen Ebene mit der Gleichung . Das oben beschriebene Diagramm versus ist eine Projektion dieses dreidimensionalen Diagramms auf zwei Dimensionen. Stellen Sie sich vor, Sie richten sich mit der Achse aus, sodass Sie direkt nach unten schauen, während die Achse nach oben und die Achse zeigt zeigt nach rechtsx 1 x 2 y = 2 x 1 + 5 x 2 + 3 y x 1 x 2 y x 1y x1 x2 y^= 2 x1+ 5 x2+ 3 y x1 x2 y x1
Beachten Sie, dass alle Punkte genau deshalb in einer flachen Ebene liegen, weil ich die angepassten (dh vorhergesagten) Werte gezeichnet habe . Wenn wir einen Plot mit den beobachteten Werten zeichnen, liegen diese vertikal über oder unter diesen Punkten, je nachdem, ob der Rest positiv oder negativ ist.yy y
Die Beziehung zwischen und ist linear, wenn gesteuert wird (dh für die Konstante ist die Beziehung zwischen und eine gerade Linie), was oft als "Herausfiltern" der Wirkung von . Wenn Sie ein Diagramm zeichnen möchten, in dem die Beziehung zwischen und unter Berücksichtigung der Variation in wird, können Sie ein "partielles Regressionsdiagramm" (auch "Diagramm mit hinzugefügten Variablen" genannt) verwenden, in dem die Beziehung zwischen und wird x1x2x2 y x1x2yx1x2yx1y^ x1 x2 x2 y^ x1 x2 y x1 x2 y x1 als eine einzige gerade Linie gezeichnet werden.
Code für R-Parzellen
quelle