Warum ist der Korrelationskoeffizient zwischen X- und XY-Zufallsvariablen in der Regel 0,7?

49

Entnommen aus der praktischen Statistik für die medizinische Forschung, in der Douglas Altman auf Seite 285 schreibt:

... für zwei beliebige Größen X und Y wird X mit XY korreliert. Selbst wenn X und Y Stichproben von Zufallszahlen sind, würden wir eine Korrelation von X und XY von 0,7 erwarten

Ich habe es in R versucht und es scheint der Fall zu sein:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Warum ist das so? Was ist die Theorie dahinter?

kein Bestand
quelle
Für welchen Teil möchtest du eine Erklärung? Möchten Sie nur die vereinfachte Gleichung für die Korrelation, die sich aufgrund der bekannten Korrelation zwischen x und y und der Kovarianz zwischen x und xy ergibt? Oder wollen Sie einfach nur wissen, warum es hier überhaupt Kovarianz gibt?
John
Gilt das auch für jeden und Y ? Angenommen , X und Z sind unkorreliert und lassen Y = X - Z . Dann vermute ich, dass X nicht mit X - Y korreliert . XYXZY=XZXXY
Henry

Antworten:

69

Wenn und Y sind nicht korrelierten Zufallsvariablen mit gleicher Varianz & sgr; 2 , dann haben wir diese var ( X - Y )XYσ2 FolglichρX,X-Y=COV(X,X-Y)

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
Also, wenn Sie feststellen Σ n i = 1 (xi- ˉ x )((xi-yi)-( ˉ x - ˉ y ))
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
die Stichprobenkorrelation vonxundx-yfür einen großen Datensatz{(xi,yi):1in
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy Aus einer Grundgesamtheit mit diesen Eigenschaften, die als Sonderfall "Zufallszahlen" enthält, ist das Ergebnis in der Regel nahe am Grundgesamtheitskorrelationswert 1{(xi,yi):1in}120.7071
Dilip Sarwate
quelle
Könnten Sie bitte etwas näher erläutern, wiecov(X,X)-cov(X,Y)=s^2
Nostock
5
cov (X, X) ist ein anderer Name für var (X). cov (X, Y) = 0, da angenommen wird, dass X und Y nicht korreliert sind (daher Kovarianz = 0).
Dilip Sarwate
58

Eine geometrisch-statistische Erklärung.

n 2 XYXY

XYr=0

XY

XYX+Y

XYX+Y2σ2XXYX+Y0.707...

Bildbeschreibung hier eingeben

ttnphns
quelle
4
Ein großes +1 für diesen Ansatz zu teilen.
Whuber
(+1) Das ist eine sehr nette Art, dies zu präsentieren!
Matt Krause
Ahh ... Bilder! (+1) Gut gemacht. :-)
Kardinal
11

Ich glaube, dass es auch hier eine einfache Intuition gibt, die auf Symmetrie basiert. Da X und Y die gleichen Verteilungen und eine Kovarianz von 0 haben, sollte die Beziehung von X ± Y zu X die Hälfte der Variation von X ± Y "erklären"; Die andere Hälfte sollte mit Y erklärt werden. Also sollte R 2 1/2 sein, was bedeutet, dass R 1 / √2 ≈ 0,707 ist.

denn333
quelle
r2=12r1/21/2
Nein, das ist wirklich nicht mehr Standard. (Wenn Sie Beweise benötigen, lesen Sie die Antwort oben. Die 38 Personen, die bereits dafür gestimmt haben, haben nicht mit derselben Notation
gestritten
r2=1/2r=1/2
3

Hier ist eine einfache Möglichkeit, darüber nachzudenken, warum hier überhaupt eine Korrelation besteht.

Stellen Sie sich vor, was passiert, wenn Sie zwei Verteilungen subtrahieren. Wenn der Wert von x niedrig ist, ist er im Durchschnitt x - yniedriger als wenn der Wert von x hoch ist. Mit zunehmendem x steigt dann x - yim Mittel eine positive Korrelation.

John
quelle
4
Ich glaube nicht, dass Ihre Aussage immer wahr ist. "Es wird immer eine Korrelation zwischen zwei Zufallsverteilungen geben, wenn es eine mathematische Beziehung gibt." zB x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
curious_cat
4
@curious_cat: Oder, um noch beeindruckender zu sein, lassen Sie das Ganze fallen y. :-)
Kardinal