Ich habe ein lineares Regressionsmodell unter Verwendung einer Reihe von Variablen / Merkmalen trainiert. Und das Modell hat eine gute Leistung. Ich habe jedoch festgestellt, dass es keine Variable gibt, die mit der vorhergesagten Variablen gut korreliert. Wie ist es möglich?
17
Antworten:
Ein Variablenpaar kann eine hohe partielle Korrelation aufweisen (wobei die Korrelation den Einfluss anderer Variablen berücksichtigt), jedoch eine geringe oder sogar keine marginale Korrelation (paarweise Korrelation).
Dies bedeutet, dass die paarweise Korrelation zwischen einer Antwort y und einem Prädiktor x für die Identifizierung geeigneter Variablen mit einem (linearen) "prädiktiven" Wert aus einer Sammlung anderer Variablen von geringem Wert sein kann.
Betrachten Sie die folgenden Daten:
Die Korrelation zwischen y und x ist . Wenn ich die Linie mit den kleinsten Quadraten zeichne, ist sie perfekt horizontal und R 2 wird natürlich 0 sein .0 R2 0
Wenn Sie jedoch eine neue Variable g hinzufügen, die angibt, aus welcher der beiden Gruppen die Beobachtungen stammen, wird x äußerst informativ:
Das eines linearen Regressionsmodells mit den Variablen x und g ist 1.R2
Es ist möglich, dass so etwas mit jeder der Variablen im Modell passiert - alle haben eine geringe paarweise Korrelation mit der Antwort, aber das Modell mit allen darin kann die Antwort sehr gut vorhersagen.
Zusätzliche Lektüre:
https://en.wikipedia.org/wiki/Omitted-variable_bias
https://en.wikipedia.org/wiki/Simpson%27s_paradox
quelle
Ich gehe davon aus, dass Sie ein multiples Regressionsmodell trainieren, in dem Sie mehrere unabhängige Variablen , X 2 habenX1 X2 , ... haben, die auf Y zurückgegangen sind. Die einfache Antwort hier ist, dass eine paarweise Korrelation wie das Ausführen eines nicht spezifizierten Regressionsmodells ist. Aus diesem Grund haben Sie wichtige Variablen ausgelassen.
Genauer gesagt, wenn Sie angeben, dass es keine Variable mit einer guten Korrelation zur vorhergesagten Variablen gibt, klingt es so, als würden Sie die paarweise Korrelation zwischen jeder unabhängigen Variablen und der abhängigen Variablen Y überprüfen. Dies ist möglich, wenn eine wichtige Rolle spielt , neue Informationen und hilft, die Verwechslung zwischen X 1 aufzuklärenX2 X1 und Y. Bei dieser Verwechslung sehen wir jedoch möglicherweise keine lineare paarweise Korrelation zwischen und Y. Möglicherweise möchten Sie auch die Beziehung zwischen der partiellen Korrelation ρ x überprüfen 1 ,X1 und multiple Regressiony= β 1ρx1,y|x2 ρ x 1 , y .y=β1X1+β2X2+ϵ . Multiple Regression hat eine engere Beziehung zur partiellen Korrelation als die paarweise Korrelation.ρx1,y
quelle
quelle