Wie ist es möglich, ein gutes lineares Regressionsmodell zu erhalten, wenn keine wesentliche Korrelation zwischen der Ausgabe und den Prädiktoren besteht?

17

Ich habe ein lineares Regressionsmodell unter Verwendung einer Reihe von Variablen / Merkmalen trainiert. Und das Modell hat eine gute Leistung. Ich habe jedoch festgestellt, dass es keine Variable gibt, die mit der vorhergesagten Variablen gut korreliert. Wie ist es möglich?

Zaratruta
quelle
3
Dies sind großartige Antworten, aber der Frage fehlen viele Details, die die Antworten ergänzen sollen. Die größte Frage ist für mich, was Sie unter "guter Korrelation" verstehen.
Warmwasser

Antworten:

35

Ein Variablenpaar kann eine hohe partielle Korrelation aufweisen (wobei die Korrelation den Einfluss anderer Variablen berücksichtigt), jedoch eine geringe oder sogar keine marginale Korrelation (paarweise Korrelation).

Dies bedeutet, dass die paarweise Korrelation zwischen einer Antwort y und einem Prädiktor x für die Identifizierung geeigneter Variablen mit einem (linearen) "prädiktiven" Wert aus einer Sammlung anderer Variablen von geringem Wert sein kann.

Betrachten Sie die folgenden Daten:

   y  x
1  6  6
2 12 12
3 18 18
4 24 24
5  1 42
6  7 48
7 13 54
8 19 60

Die Korrelation zwischen y und x ist . Wenn ich die Linie mit den kleinsten Quadraten zeichne, ist sie perfekt horizontal und R 2 wird natürlich 0 sein .0R20

Wenn Sie jedoch eine neue Variable g hinzufügen, die angibt, aus welcher der beiden Gruppen die Beobachtungen stammen, wird x äußerst informativ:

   y  x g
1  6  6 0
2 12 12 0
3 18 18 0
4 24 24 0
5  1 42 1
6  7 48 1
7 13 54 1
8 19 60 1

Das eines linearen Regressionsmodells mit den Variablen x und g ist 1.R2

Auftragung von y gegen x mit fehlender paarweiser linearer Beziehung, wobei die Farbe die Gruppe angibt;  Innerhalb jeder Gruppe ist die Beziehung perfekt

Es ist möglich, dass so etwas mit jeder der Variablen im Modell passiert - alle haben eine geringe paarweise Korrelation mit der Antwort, aber das Modell mit allen darin kann die Antwort sehr gut vorhersagen.

Zusätzliche Lektüre:

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox

Glen_b - Setzen Sie Monica wieder ein
quelle
Kann dieses Verhalten in einem echten linearen Modell auftreten? Hier scheint die Beziehung zwischen Farbe (g = 0/1) und Antwort y nicht linear zu sein. Was jedoch passieren kann ist, dass der des Modells ohne gR2g (willkürlich?) Niedriger sein kann als das des Modells mit g . R2g
Vimal
Meine Güte, ich hätte mir das Modell genau ansehen sollen :) . Scratch diese Frage! y=x41g
Vimal
Das war in der Tat das Modell, nach dem die Antwort erstellt wurde; Sie können jedoch sofort erkennen, dass es linear ist, indem Sie sich einfach vorstellen, die blauen Punkte um eine beliebige Einheit (von der Bildschirmoberfläche auf Sie zu, entlang einer neuen Richtung der "g" -Achse) anzuheben und eine Ebene zu sehen, die durch die sechs Punkte passt.
Glen_b -Reinstate Monica
1
Bei der Regression sind X-Variablen abhängig von und können oft gesteuert werden, sodass "Unabhängigkeit" im Allgemeinen nicht das ist, wonach man sucht. Außerhalb von geplanten Experimenten werden unabhängige Prädiktoren ohnehin so gut wie nie gesehen, und wenn Sie Experimente geplant haben, sind die Prädiktoren keine Zufallsvariablen, sodass "Unabhängigkeit" (im statistischen Sinne) nicht das ist, wonach Sie suchen würden - eher etwas vermutlich wie gegenseitige Orthogonalität. ... ctd
Glen_b -Reinstate Monica
1
ctd ... Wenn Sie wirklich statistische Unabhängigkeit (gegenseitig / p-variabel) aller Prädiktoren meinen, dann erhalten Sie auf diese Weise bei univariaten Regressionen nicht genau null Koeffizienten, aber Sie brauchen auch keine vollständige Trennung wie im obigen Beispiel .
Glen_b -Reinstate Monica
2

Ich gehe davon aus, dass Sie ein multiples Regressionsmodell trainieren, in dem Sie mehrere unabhängige Variablen , X 2 habenX1X2 , ... haben, die auf Y zurückgegangen sind. Die einfache Antwort hier ist, dass eine paarweise Korrelation wie das Ausführen eines nicht spezifizierten Regressionsmodells ist. Aus diesem Grund haben Sie wichtige Variablen ausgelassen.

Genauer gesagt, wenn Sie angeben, dass es keine Variable mit einer guten Korrelation zur vorhergesagten Variablen gibt, klingt es so, als würden Sie die paarweise Korrelation zwischen jeder unabhängigen Variablen und der abhängigen Variablen Y überprüfen. Dies ist möglich, wenn eine wichtige Rolle spielt , neue Informationen und hilft, die Verwechslung zwischen X 1 aufzuklärenX2X1 und Y. Bei dieser Verwechslung sehen wir jedoch möglicherweise keine lineare paarweise Korrelation zwischen und Y. Möglicherweise möchten Sie auch die Beziehung zwischen der partiellen Korrelation ρ x überprüfen 1 ,X1 und multiple Regressiony= β 1ρx1,y|x2 ρ x 1 , y .y=β1X1+β2X2+ϵ. Multiple Regression hat eine engere Beziehung zur partiellen Korrelation als die paarweise Korrelation.ρx1,y

Ray Yang
quelle
0

XXXXXX=x1,x2...oipicicioi=0cixicioi=0cixiX1X2EX1X2EX1X1X2X2EX1X2YY

Acccumulation
quelle