Warum ist das Produkt der bivariaten Regressionskoeffizienten der

11

Es gibt ein Regressionsmodell mit mit a = 1,6 und b = 0,4 , das einen Korrelationskoeffizienten von r hatY=a+bXa=1.6b=0.4 .r=0.60302

Wenn und Y dann umgeschaltet werden und die Gleichung zu X = c + d Y wird, wobei c = 0,4545 und d = 0,9091 , hat sie auch einen r- Wert von 0,60302XYX=c+dYc=0.4545d=0.9091r0.60302 .

Ich hoffe, jemand kann erklären, warum auch 0,60302 ist .(d×b)0.50.60302

Mike
quelle

Antworten:

17

und d = rb=rSDy/SDx , also b × d = r 2 .d=rSDx/SDyb×d=r2

Viele Statistiklehrbücher würden dies ansprechen; Ich mag Freedman et al., Statistik . Siehe auch hier und diesen Wikipedia-Artikel .

Karl
quelle
10

Schauen Sie sich dreizehn Möglichkeiten an, den Korrelationskoeffizienten zu betrachten - und insbesondere die Möglichkeiten 3, 4, 5 sind für Sie von größtem Interesse.

Neugierig
quelle
2
Dies sollte wahrscheinlich ein Kommentar gewesen sein. Beachten Sie, dass der Link nicht mehr funktioniert. Ich habe den Link aktualisiert und ein vollständiges Zitat bereitgestellt. Können Sie dies näher erläutern oder zusätzliche Informationen bereitstellen, damit dies auch dann noch wertvoll ist, wenn der Link erneut unterbrochen wird?
Gung - Reinstate Monica
2
Der Artikel von Rodgers & Nicewander ist auf unserer Website unter stats.stackexchange.com/q/70969/22228 zusammengefasst .
whuber
3

Denken Sie daran, dass viele Einführungstexte definieren

Sxy=i=1n(xix¯)(yiy¯)

Dann setzen wir durch Setzen von als x S x x = n i = 1 ( x i - ˉ x ) 2 und in ähnlicher Weise S y y = n i = 1 ( y i - ˉ y ) 2yxSxx=i=1n(xix¯)2Syy=i=1n(yiy¯)2 .

Formeln für den Korrelationskoeffizienten , die Steigung der y- on- x- Regression (Ihr b ) und die Steigung der x- on- y- Regression (Ihr d ) werden häufig wie folgt angegeben:ryxbxyd

(1)r=SxySxxSyy(2)β^y on x=SxySxx(3)β^x on y=SxySyy

Dann ergibt das Multiplizieren von und ( 3 ) eindeutig das Quadrat von ( 1 ) :(2)(3)(1)

β^y on xβ^x on y=Sxy2SxxSyy=r2

Alternativ werden die Zähler und Nenner der Brüche in , ( 2 ) und ( 3 ) häufig durch n oder ( n - 1 ) geteilt, so dass die Dinge in Bezug auf Stichproben oder geschätzte Varianzen und Kovarianzen gerahmt werden. Zum Beispiel ist aus ( 1 ) der geschätzte Korrelationskoeffizient nur die geschätzte Kovarianz, skaliert durch die geschätzten Standardabweichungen:(1)(2)(3)n(n1)(1)

(4)r=Corr^(X,Y)=Cov^(X,Y)SD(X)^SD(Y)^(5)β^y on x=Cov^(X,Y)Var(X)^(6)β^x on y=Cov^(X,Y)Var(Y)^

We then immediately find from multiplying (5) and (6) that

β^y on xβ^x on y=Cov^(X,Y)2Var(X)^Var(Y)^=(Cov^(X,Y)SD(X)^SD(Y)^)2=r2

We might instead have rearranged (4) to write the covariance as a "scaled-up" correlation:

(7)Cov^(X,Y)=rSD(X)^SD(Y)^

Then by substituting (7) into (5) and (6) we could rewrite the regression coefficients as β^y on x=rSD^(y)SD^(x) and β^x on y=rSD^(x)SD^(y). Multiplying these together would also produce r2, and this is @Karl's solution. Writing the slopes in this way helps explain how we can see the correlation coefficient as a standardized regression slope.


Finally note that in your case r=bd=β^y on xβ^x on y but this was because your correlation was positive. If your correlation were negative, then you would have to take the negative root.

To work out whether your correlation is positive or negative, you simply need to regard the sign (plus or minus) of your regression coefficient — it doesn't matter whether you look at the y-on-0x or x-on-y as their signs will be the same. So you can use the formula:

r=sgn(β^y on x)β^y on xβ^x on y

where sgn is the signum function, i.e. is +1 if the slope is positive and 1 if the slope is negative.

Silverfish
quelle
1
You might find this answer of mine to be of interest even though it does not explicitly address the question asked here.
Dilip Sarwate