Entnommen aus der praktischen Statistik für die medizinische Forschung, in der Douglas Altman auf Seite 285 schreibt:
... für zwei beliebige Größen X und Y wird X mit XY korreliert. Selbst wenn X und Y Stichproben von Zufallszahlen sind, würden wir eine Korrelation von X und XY von 0,7 erwarten
Ich habe es in R versucht und es scheint der Fall zu sein:
x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)
xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)
Warum ist das so? Was ist die Theorie dahinter?
correlation
random-variable
intuition
kein Bestand
quelle
quelle
Antworten:
Wenn und Y sind nicht korrelierten Zufallsvariablen mit gleicher Varianz & sgr; 2 , dann haben wir diese var ( X - Y )X Y σ2
FolglichρX,X-Y=COV(X,X-Y)
quelle
cov(X,X)-cov(X,Y)=s^2
Eine geometrisch-statistische Erklärung.
quelle
Ich glaube, dass es auch hier eine einfache Intuition gibt, die auf Symmetrie basiert. Da X und Y die gleichen Verteilungen und eine Kovarianz von 0 haben, sollte die Beziehung von X ± Y zu X die Hälfte der Variation von X ± Y "erklären"; Die andere Hälfte sollte mit Y erklärt werden. Also sollte R 2 1/2 sein, was bedeutet, dass R 1 / √2 ≈ 0,707 ist.
quelle
Hier ist eine einfache Möglichkeit, darüber nachzudenken, warum hier überhaupt eine Korrelation besteht.
Stellen Sie sich vor, was passiert, wenn Sie zwei Verteilungen subtrahieren. Wenn der Wert von x niedrig ist, ist er im Durchschnitt
x - y
niedriger als wenn der Wert von x hoch ist. Mit zunehmendem x steigt dannx - y
im Mittel eine positive Korrelation.quelle
x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)
$y
. :-)