Gebunden für die Korrelation von drei Zufallsvariablen

28

Es gibt drei Zufallsvariablen, x,y,z . Die drei Korrelationen zwischen den drei Variablen sind gleich. Das ist,

ρ=cor(x,y)=cor(x,z)=cor(y,z)

Was ist die engste Grenze, die Sie für geben können ρ?

user1352399
quelle
1
Vermutlich mit "pho" meinen Sie rho ( ρ ). Ihre Frage ist jedoch nicht klar. Was meinst du mit "Was ist die engste Bindung, die du geben kannst"?
gung - Wiedereinsetzung von Monica
Nun, der Name der Variablen ist nur ein Dummy. Mit engster Bindung meine ich etwas wie [-1, 1] für eine Korrelation, aber dies ist eindeutig nicht die engstmögliche Bindung.
user1352399
Meinen Sie, dass Rho = cor (x, y) = cor (x, z) = cor (y, z), und was sind die Grenzen für Rho?
user31264
Ja, ich meine, dass Rho = cor (x, y) = cor (x, z) = cor (y, z) und was sind die Grenzen für Rho. Dilip, kannst du das so erweitern, dass rho nicht negativ sein muss, dh> = 0?
user1352399
1
Ein Lehrbuch dafür ist Seber & Lee "Linear Regression Analysis" (Zumindest in der ersten Ausgabe ...)
kjetil b halvorsen

Antworten:

29

Die gemeinsame Korrelation kann den Wert + 1 haben, aber nicht - 1 . Wenn ρ X , Y = ρ X , Z = - 1 , dann kann ρ Y , Z nicht gleich - 1 sein, sondern ist tatsächlich + 1 . Der kleinste Wert der gemeinsamen Korrelation von drei Zufallsvariablen ist - 1ρ+11ρX,Y=ρX,Z=1ρY,Z1+1 . Allgemeiner ist die minimale gemeinsame Korrelation vonnZufallsvariablen-112n wenn sie als Vektoren betrachtet an den Eckpunkten eines Simplex (der Dimensionn-1) imn-dimensionalen Raum liegen.1n1n1n

Betrachten Sie die Varianz der Summe der Zufallsvariablen X i der Varianz von Einheiten . Wir haben das var ( n i = 1 X i )nXich wobei ˉ ρ derDurchschnittswertvon ( n

var(i=1nXi)=i=1nvar(Xi)+i=1njincov(Xi,Xj)=n+i=1njinρXi,Xj(1)=n+n(n1)ρ¯
ρ¯ Korrelationskoeffizienten. Aber davar(iXi)0 ist, erhalten wir leicht aus (1),dass ˉ ρ-1 ist(n2)var(iXi)0(1)
ρ¯1n1.

Der Durchschnittswert eines Korrelationskoeffizienten beträgt also mindestens . WennalleKorrelationskoeffizienten dengleichenWertρ haben, ist ihr Durchschnitt ebenfalls gleichρ,und wir haben daher ρ-11n1ρρ Ist es möglich, Zufallsvariablen zu haben, für die der gemeinsame Korrelationswertρgleich-1 ist?

ρ1n1.
ρ ? Ja. Angenommen, dieXisindunkorrelierte Zufallsvariablen der Einheitsvarianz und setzen Yi=Xi-11n1Xi . Dann istE[Yi]=0, während var(Yi)= ( n - 1Y.ich=Xich-1nj=1nXj=Xich-X¯E[Y.ich]=0 und cov(Yi,Yj)=-2(n-1
var(Y.ich)=(n-1n)2+(n-1)(1n)2=n-1n
mit ρYi,Yj=cov(Yi,Yj)
cov(Y.ich,Y.j)=-2(n-1n)(1n)+(n-2)(1n)2=-1n
SomitdieYisind Zufallsvariablen die minimale gemeinsame Korrelationswert zu erreichen-1
ρYi,Yj=cov(Yi,Yj)var(Yi)var(Yj)=1/n(n1)/n=1n1.
Yi . Im Übrigen ist zu beachten, dass iYi=0ist und daher, als Vektoren betrachtet, die Zufallsvariablen in einer(n-1)-dimensionalen Hyperebene desn-dimensionalen Raums liegen.1n1iYi=0(n1)n
Dilip Sarwate
quelle
25

Die engstmöglichen gebunden ist . 1/2ρ1 Alle diese Werte können tatsächlich auftreten - keiner ist unmöglich.

Um zu zeigen, dass das Ergebnis weder besonders tief noch mysteriös ist, stellt diese Antwort zunächst eine vollständig elementare Lösung dar, die nur die offensichtliche Tatsache voraussetzt, dass Varianzen - die erwarteten Werte von Quadraten - nicht negativ sein dürfen. Darauf folgt eine allgemeine Lösung (die etwas komplexere algebraische Fakten verwendet).

Elementare Lösung

Die Varianz einer Linearkombination von darf nicht negativ sein. x,y,z Lassen Sie die Varianzen dieser Variablen und & ugr; 2 , respectively. Alle sind ungleich Null (da sonst einige der Korrelationen nicht definiert würden). Unter Verwendung der grundlegenden Eigenschaften von Varianzen können wir berechnenσ2,τ2,υ2

0Var(αx/σ+βy/τ+γz/ou)=α2+β2+γ2+2ρ(αβ+βγ+γα)

für alle reellen Zahlen .(α,β,γ)

Unter der Annahme , , eine wenig algebraische Manipulation bedeutet dies äquivalent zuα+β+γ0

ρ1ρ13((α2+β2+γ2)/3(α+β+γ)/3)2.

Der quadratische Term auf der rechten Seite ist das Verhältnis zweier Potenzmittel von . Die Elementarstrom-mean Ungleichung (mit Gewichten ( 1 / 3 , 1 / 3 , 1 / 3 ) ) behauptet , dass Verhältnis nicht überschreiten kann 1 (und wird gleich 1 , wenn α = β = & ggr; & ne; 0 ). Ein bisschen mehr Algebra bedeutet dann(α,β,γ)(1/3,1/3,1/3)11α=β=γ0

ρ1/2.

Das explizite Beispiel für unterhalb ( unter Einbeziehung trivariaten Normale Variablen ( x , y , z ) ) zeigt , dass alle diese Werte, - 1 / 2 & rgr; 1 , tatsächlich als Korrelationen entstehen können. In diesem Beispiel wird nur die Definition multivariater Normalen verwendet, andernfalls werden keine Ergebnisse von Calculus oder Linear Algebra aufgerufen.n=3(x,y,z)1/2ρ1

Allgemeine lösung

Überblick

Jede Korrelationsmatrix ist die Kovarianzmatrix der standardisierten Zufallsvariablen, daher muss sie - wie alle Korrelationsmatrizen - positiv semidefinit sein. Entsprechend sind seine Eigenwerte nicht negativ. Dies stellt eine einfache Bedingung auf : es darf nicht als nicht weniger sein - 1 / 2 (und natürlich darf nicht länger als 1 ). Umgekehrt entspricht jedes solche ρ tatsächlich der Korrelationsmatrix einiger trivariater Verteilungen, was beweist, dass diese Grenzen so eng wie möglich sind.ρ1/21ρ


Herleitung der Bedingungen auf ρ

Betrachten Sie die Korrelationsmatrix mal n , wobei alle Werte außerhalb der Diagonale gleich ρ sind . (Die Frage betrifft den Fall n = 3 , aber diese Verallgemeinerung ist nicht schwieriger zu analysieren.) Nennen wir es C ( ρ , n ) . Per Definition ist λ ein Eigenwert von, vorausgesetzt, es existiert ein Vektor ungleich Null x λ, so dassnnρ.n=3,C(ρ,n).λxλ

C(ρ,n)xλ=λxλ.

Diese Eigenwerte sind im vorliegenden Fall einfach zu finden, weil

  1. Lassen Sie , berechnen Sie das1=(1,1,,1)

    C(ρ,n)1=(1+(n1)ρ)1.
  2. Lassen Sie mit einer 1 nur an der j- ten Stelle (für j = 2 , 3 , , n ), berechnen Sie diesyj=(1,0,,0,1,0,,0)1jthj=2,3,,n

    C(ρ,n)yj=(1ρ)yj.

Da sich die bisher gefundenen Eigenvektoren über den gesamten n- dimensionalen Raum erstrecken (Beweis: Eine einfache Zeilenreduktion zeigt, dass der Absolutwert ihrer Determinante gleich n ist , was ungleich Null ist), bilden sie eine Basis für alle Eigenvektoren. Wir haben daher alle Eigenwerte gefunden und festgestellt, dass sie entweder 1 + ( n - 1 ) ρ oder 1 - ρ sind (letztere mit der Multiplizität n - 1 ). Neben der bekannten Ungleichung - 1 ρ 1nnn1+(n1)ρ1ρn11ρ1 durch alle Korrelationen erfüllt, impliziert die Nicht-Negativität des ersten Eigenwerts weiter

ρ1n1

während die Nicht-Negativität des zweiten Eigenwertes keine neuen Bedingungen auferlegt.


Nachweis der Angemessenheit der Bedingungen

Die Implikationen wirken in beide Richtungen: vorausgesetzt die Matrix C ( ρ , n ) nichtnegativ-definit und daher eine gültige Korrelationsmatrix. Es ist zum Beispiel die Korrelationsmatrix für eine Multinormalverteilung. Insbesondere schreiben1/(n1)ρ1,C(ρ,n)

Σ(ρ,n)=(1+(n1)ρ)Inρ(1ρ)(1+(n1)ρ)11

für die Inverse von wenn - 1 / ( n - 1 ) < ρ < 1. Zum Beispiel, wenn n = 3C(ρ,n)1/(n1)<ρ<1.n=3

Σ(ρ,3)=1(1ρ)(1+2ρ)(ρ+1ρρρρ+1ρρρρ+1).

(X1,X2,,Xn)

fρ,n(x)=exp(12xΣ(ρ,n)x)(2π)n/2((1ρ)n1(1+(n1)ρ))1/2

x=(x1,x2,,xn)n=3

1(2π)3(1ρ)2(1+2ρ)exp((1+ρ)(x2+y2+z2)2ρ(xy+yz+zx)2(1ρ)(1+2ρ)).

nC(ρ,n).

Zahl

fρ,3.ρ=4/10,0,4/10,8/10x+y+z=0x=y=z

ρ=-1/(n-1)ρ=1x.1=0010


Mehr über die Nicht-Entartung

C(-1/(n-1),n)n-1C(1,n)1n2Σ(ρ,n)

whuber
quelle
20

Ihre Korrelationsmatrix ist

(1ρρρ1ρρρ1)

Die Matrix ist positiv semidefinit, wenn die wichtigsten Minderjährigen alle nicht negativ sind. Die Hauptminderjährigen sind die Determinanten der "Nordwest" -Blöcke der Matrix, dh 1, die Determinante von

(1ρρ1)

und die Determinante der Korrelationsmatrix selbst.

1ρ2ρ[1,1]

2ρ33ρ2+1.

[1,1]Bildbeschreibung hier eingeben

Sie sehen, dass die Funktion über den durch @stochazesthai angegebenen Bereich nicht negativ ist (was Sie auch überprüfen können, indem Sie die Wurzeln der Determinantengleichung finden).

Christoph Hanck
quelle
Veinr()=1
1
@Anold Sie scheinen "Kovarianz" zu lesen, in der "Korrelation" geschrieben steht.
whuber
6

XYZρXY=ρYZ=ρXZ=ρρ[12,1]

stochazesthai
quelle
2
Kannst du das in sehr einfachen Worten erklären?
Elizabeth Susan Joseph
1
Ich glaube nicht, dass es eine Erklärung gibt, die keine Kenntnisse der Matrixalgebra erfordert. Ich schlage vor, dass Sie sich die Wikipedia-Seite ansehen ( en.wikipedia.org/wiki/… ).
Stochazesthai
4
Ich habe eine Erklärung gefunden, die nur grundlegende Algebra (High School Level) erfordert, und diese in meine Antwort aufgenommen.
whuber