Ist es möglich, dass

8

In OLS ist es möglich, dass einer Regression für zwei Variablen höher ist als die Summe von für zwei Regressionen für die einzelnen Variablen.R 2R.2R.2

R.2(Y.EIN+B.)>R.2(Y.EIN)+R.2(Y.B.)

Edit: Ugh, das ist trivial; Das ist es, was ich bekomme, wenn ich versuche, Probleme zu lösen, an die ich im Fitnessstudio gedacht habe. Entschuldigen Sie, dass Sie wieder Zeit verschwendet haben. Die Antwort lautet eindeutig ja.

Y.N.(0,1)

EINN.(0,1)

B.=Y.- -EIN

, klar. Aber R 2 ( Y A ) sollte im Grenzwert 0 sein und R 2 ( Y B ) sollte im Grenzwert 0,5 sein. R.2(Y.EIN+B.)=1R.2(Y.EIN)R.2(Y.B.)

bsdfish
quelle
Fragen Sie nach der Ungleichung in der Anzeigegleichung (mit der verbleibenden Quadratsumme ) oder fragen Sie nach einer Ungleichung mit dem Satz vor dieser Gleichung, dh mit , dem Bestimmungskoeffizienten? R2
Kardinal
Ich interessierte mich für ; bearbeitet, um das Problem zu beheben. R.2
bsdfish
Gut . Es gibt auch schöne geometrische Erklärungen.
Kardinal
3
Sie können Ihre Antwort bearbeiten und als tatsächliche Antwort einfügen, damit die Frage nicht "unbeantwortet" bleibt.
Karl
Gibt es eine Chance, dass wir eine intuitive Antwort darauf bekommen? Wenn der Prozentsatz der erklärten Varianz ist, wie kann man dann mehr Varianz mit dem vollständigen Modell erklären als mit einem dedizierten Modell für jede Variable? R.2
kmace

Antworten:

4

Hier ist ein kleines Stück R, das einen zufälligen Startwert festlegt, der zu einem Datensatz führt, der ihn in Aktion zeigt.

set.seed(103)

d <- data.frame(y=rnorm(20, 0, 1),
                a=rnorm(20, 0, 1),
                b=rnorm(20, 0, 1))

m1 <- lm(y~a, data=d)
m2 <- lm(y~b, data=d)
m3 <- lm(y~a+b, data=d)

r2.a <- summary(m1)[["r.squared"]]
r2.b <- summary(m2)[["r.squared"]]
r2.sum <- summary(m3)[["r.squared"]]

r2.sum > r2.a + r2.b

Es ist nicht nur möglich (wie Sie bereits analytisch gezeigt haben), es ist auch nicht schwer zu tun. Bei 3 normalverteilten Variablen scheint dies in etwa 40% der Fälle der Fall zu sein.

Benjamin Mako Hill
quelle
Beeindruckend. Ihr MIT-Jungs müsst mehr Zeit haben als allgemein angenommen ;-)
xmjx
Ich war an einem langen Tag voller Besprechungen festgefahren. :)
Benjamin Mako Hill
-1

Das ist nicht möglich. Wenn A und B überhaupt korreliert sind (wenn ihr r ungleich Null ist), ist der rsq der Regression auf beiden weniger als die Summe der rsq ihrer einzelnen Regressionen.

Beachten Sie, dass selbst wenn A und B vollständig unkorreliert sind, angepasste rsqs (die für ein niedriges Fall-zu-Prädiktor-Verhältnis benachteiligen) zwischen den beiden Lösungen geringfügig unterschiedlich sein können.

Vielleicht möchten Sie mehr über die empirischen Beweise erzählen, die Sie verärgert haben.

rolando2
quelle
Vielleicht möchten Sie dies überdenken. Oder versuchen Sie es mit einer Simulation. :)
Kardinal
EINB.
X.1X.2EINB.Y.X.10<ρ<1X.2=ρY.+1- -ρ2X.R.2X.1R.2X.2R.2X.1+X.2
X.1+X.2X.1X.2