Gebunden für die Korrelation von drei Zufallsvariablen

28

Es gibt drei Zufallsvariablen, $x,y,z$ . Die drei Korrelationen zwischen den drei Variablen sind gleich. Das ist,

ρ = cor (x, y) = cor (x, z) = cor (y, z)

$\rho=\textrm{cor}(x,y)=\textrm{cor}(x,z)=\textrm{cor}(y,z)$

Was ist die engste Grenze, die Sie für geben können $\rho$ ?

correlation correlation-matrix user1352399
quelle

1

Vermutlich mit "pho" meinen Sie rho (

ρ

$\rho$ ). Ihre Frage ist jedoch nicht klar. Was meinst du mit "Was ist die engste Bindung, die du geben kannst"?

gung - Wiedereinsetzung von Monica

Nun, der Name der Variablen ist nur ein Dummy. Mit engster Bindung meine ich etwas wie [-1, 1] für eine Korrelation, aber dies ist eindeutig nicht die engstmögliche Bindung.

user1352399

Meinen Sie, dass Rho = cor (x, y) = cor (x, z) = cor (y, z), und was sind die Grenzen für Rho?

user31264

Ja, ich meine, dass Rho = cor (x, y) = cor (x, z) = cor (y, z) und was sind die Grenzen für Rho. Dilip, kannst du das so erweitern, dass rho nicht negativ sein muss, dh> = 0?

user1352399

1

Ein Lehrbuch dafür ist Seber & Lee "Linear Regression Analysis" (Zumindest in der ersten Ausgabe ...)

kjetil b halvorsen

29

Die gemeinsame Korrelation kann den Wert aber nicht . Wenn , dann kann nicht gleich sondern ist tatsächlich . Der kleinste Wert der gemeinsamen Korrelation von drei Zufallsvariablen ist $\rho$ $+1$ $-1$ $\rho_{X,Y}= \rho_{X,Z}=-1$ $\rho_{Y,Z}$ $-1$ $+1$ . Allgemeiner ist die minimale gemeinsame Korrelation vonZufallsvariablen $-\frac{1}{2}$ $n$ wenn sie als Vektoren betrachtet an den Eckpunkten eines Simplex (der Dimension) imdimensionalen Raum liegen. $-\frac{1}{n-1}$ $n-1$ $n$

Betrachten Sie die Varianz der Summe der Zufallsvariablen der Varianz von Einheiten . Wir haben das $n$ $X_i$ wobei derDurchschnittswertvon

\begin{aligned} var (\sum_{i = 1}^{n} X_{i}) & = \sum_{i = 1}^{n} var (X_{i}) + \sum_{i = 1}^{n} \sum_{j \neq i}^{n} cov (X_{i}, X_{j}) \\ = n + \sum_{i = 1}^{n} \sum_{j \neq i}^{n} ρ_{X_{i}, X_{j}} \\ (1) & = n + n (n - 1) \bar{ρ} \end{aligned}

$\begin{align*} \operatorname{var}\left(\sum_{i=1}^n X_i\right) &= \sum_{i=1}^n \operatorname{var}(X_i) + \sum_{i=1}^n\sum_{j\neq i}^n \operatorname{cov}(X_i,X_j)\\ &= n + \sum_{i=1}^n\sum_{j\neq i}^n \rho_{X_i,X_j}\\ &= n + n(n-1)\bar{\rho} \tag{1} \end{align*}$

\bar{ρ}

$\bar{\rho}$

Korrelationskoeffizienten. Aber da

, erhalten wir leicht aus

dass

(\binom{n}{2})

$\binom{n}{2}$

var (\sum_{i} X_{i}) \geq 0

$\operatorname{var}\left(\sum_i X_i\right) \geq 0$

(1)

$(1)$

\bar{ρ} \geq - \frac{1}{n - 1} .

$\bar{\rho} \geq -\frac{1}{n-1}.$

Der Durchschnittswert eines Korrelationskoeffizienten beträgt also mindestens . WennalleKorrelationskoeffizienten dengleichenWert, ist ihr Durchschnitt ebenfalls gleichund wir haben daher $-\frac{1}{n-1}$ $\rho$ $\rho$ Ist es möglich, Zufallsvariablen zu haben, für die der gemeinsame Korrelationswertgleich?

ρ \geq - \frac{1}{n - 1} .

$\rho \geq -\frac{1}{n-1}.$

ρ

$\rho$

? Ja. Angenommen, die

sindunkorrelierte Zufallsvariablen der Einheitsvarianz und setzen

- \frac{1}{n - 1}

$-\frac{1}{n-1}$

X_{i}

$X_i$

. Dann ist

, während

Y_{i} = X_{i} - \frac{1}{n} \sum_{j = 1}^{n} X_{j} = X_{i} - \bar{X}

$Y_i = X_i - \frac{1}{n}\sum_{j=1}^n X_j = X_i -\bar{X}$

E [Y_{i}] = 0

$E[Y_i]=0$

und

var ({Y.}_{ich}) = {(\frac{n - 1}{n})}^{2} + (n - 1) {(\frac{1}{n})}^{2} = \frac{n - 1}{n}

$\displaystyle \operatorname{var}(Y_i) = \left(\frac{n-1}{n}\right)^2 + (n-1)\left(\frac{1}{n}\right)^2 = \frac{n-1}{n}$

mit

cov ({Y.}_{ich}, {Y.}_{j}) = - 2 (\frac{n - 1}{n}) (\frac{1}{n}) + (n - 2) {(\frac{1}{n})}^{2} = - \frac{1}{n}

$\operatorname{cov}(Y_i,Y_j) = -2\left(\frac{n-1}{n}\right)\left(\frac{1}{n}\right) + (n-2)\left(\frac{1}{n}\right)^2 = -\frac{1}{n}$

Somitdie

sind Zufallsvariablen die minimale gemeinsame Korrelationswert zu erreichen

ρ_{Y_{i}, Y_{j}} = \frac{cov (Y_{i}, Y_{j})}{\sqrt{var (Y_{i}) var (Y_{j})}} = \frac{- 1 / n}{(n - 1) / n} = - \frac{1}{n - 1} .

$\rho_{Y_i,Y_j} = \frac{\operatorname{cov}(Y_i,Y_j)}{\sqrt{\operatorname{var}(Y_i)\operatorname{var}(Y_j)}} =\frac{-1/n}{(n-1)/n} = -\frac{1}{n-1}.$

Y_{i}

$Y_i$

. Im Übrigen ist zu beachten, dass

ist und daher, als Vektoren betrachtet, die Zufallsvariablen in einer

-dimensionalen Hyperebene des

dimensionalen Raums liegen.

- \frac{1}{n - 1}

$-\frac{1}{n-1}$

\sum_{i} Y_{i} = 0

$\sum_i Y_i = 0$

(n - 1)

$(n-1)$

n

$n$

Dilip Sarwate
quelle

25

Die engstmöglichen gebunden ist . $-1/2 \le \rho \le 1$ Alle diese Werte können tatsächlich auftreten - keiner ist unmöglich.

Um zu zeigen, dass das Ergebnis weder besonders tief noch mysteriös ist, stellt diese Antwort zunächst eine vollständig elementare Lösung dar, die nur die offensichtliche Tatsache voraussetzt, dass Varianzen - die erwarteten Werte von Quadraten - nicht negativ sein dürfen. Darauf folgt eine allgemeine Lösung (die etwas komplexere algebraische Fakten verwendet).

Elementare Lösung

Die Varianz einer Linearkombination von darf nicht negativ sein. $x,y,z$ Lassen Sie die Varianzen dieser Variablen und , respectively. Alle sind ungleich Null (da sonst einige der Korrelationen nicht definiert würden). Unter Verwendung der grundlegenden Eigenschaften von Varianzen können wir berechnen $\sigma^2, \tau^2,$ $\upsilon^2$

0 \leq Var (α x / σ + β y / τ + γ z / ou) = α^{2} + β^{2} + γ^{2} + 2 ρ (α β + β γ + γ α)

$0 \le \text{Var}(\alpha x/\sigma + \beta y/\tau + \gamma z/\upsilon) = \alpha^2 +\beta^2+\gamma^2 + 2\rho(\alpha\beta+\beta\gamma+\gamma\alpha)$

für alle reellen Zahlen . $(\alpha, \beta, \gamma)$

Unter der Annahme , , eine wenig algebraische Manipulation bedeutet dies äquivalent zu $\alpha+\beta+\gamma\ne 0$

\frac{- ρ}{1 - ρ} \leq \frac{1}{3} {(\frac{\sqrt{(α^{2} + β^{2} + γ^{2}) / 3}}{(α + β + γ) / 3})}^{2} .

$\frac{-\rho}{1-\rho} \le \frac{1}{3} \left(\frac{\sqrt{(\alpha^2+\beta^2+\gamma^2)/3}}{(\alpha+\beta+\gamma)/3}\right)^2.$

Der quadratische Term auf der rechten Seite ist das Verhältnis zweier Potenzmittel von . Die Elementarstrom-mean Ungleichung (mit Gewichten ) behauptet , dass Verhältnis nicht überschreiten kann (und wird gleich , wenn ). Ein bisschen mehr Algebra bedeutet dann $(\alpha, \beta, \gamma)$ $(1/3, 1/3, 1/3)$ $1$ $1$ $\alpha=\beta=\gamma\ne 0$

ρ \geq - 1 / 2.

$\rho \ge -1/2.$

Das explizite Beispiel für unterhalb ( unter Einbeziehung trivariaten Normale Variablen ) zeigt , dass alle diese Werte, , tatsächlich als Korrelationen entstehen können. In diesem Beispiel wird nur die Definition multivariater Normalen verwendet, andernfalls werden keine Ergebnisse von Calculus oder Linear Algebra aufgerufen. $n=3$ $(x,y,z)$ $-1/2 \le \rho \le 1$

Allgemeine lösung

Überblick

Jede Korrelationsmatrix ist die Kovarianzmatrix der standardisierten Zufallsvariablen, daher muss sie - wie alle Korrelationsmatrizen - positiv semidefinit sein. Entsprechend sind seine Eigenwerte nicht negativ. Dies stellt eine einfache Bedingung auf : es darf nicht als nicht weniger sein (und natürlich darf nicht länger als ). Umgekehrt entspricht jedes solche tatsächlich der Korrelationsmatrix einiger trivariater Verteilungen, was beweist, dass diese Grenzen so eng wie möglich sind. $\rho$ $-1/2$ $1$ $\rho$

Herleitung der Bedingungen auf $\rho$

Betrachten Sie die Korrelationsmatrix mal , wobei alle Werte außerhalb der Diagonale gleich (Die Frage betrifft den Fall aber diese Verallgemeinerung ist nicht schwieriger zu analysieren.) Nennen wir es Per Definition ist ein Eigenwert von, vorausgesetzt, es existiert ein Vektor ungleich Null so dass $n$ $n$ $\rho.$ $n=3,$ $\mathbb{C}(\rho, n).$ $\lambda$ $\mathbf{x}_\lambda$

C (ρ, n) x_{λ} = λ x_{λ} .

$\mathbb{C}(\rho,n) \mathbf{x}_\lambda = \lambda \mathbf{x}_\lambda.$

Diese Eigenwerte sind im vorliegenden Fall einfach zu finden, weil

Lassen Sie , berechnen Sie das $\mathbf{1} = (1, 1, \ldots, 1)'$

$C (ρ, n) 1 = (1 + (n - 1) ρ) 1 .$ $\mathbb{C}(\rho,n)\mathbf{1} = (1+(n-1)\rho)\mathbf{1}.$
Lassen Sie mit einer nur an der Stelle (für ), berechnen Sie dies $\mathbf{y}_j = (-1, 0, \ldots, 0, 1, 0, \ldots, 0)$ $1$ $j^\text{th}$ $j = 2, 3, \ldots, n$

$C (ρ, n) y_{j} = (1 - ρ) y_{j} .$ $\mathbb{C}(\rho,n)\mathbf{y}_j = (1-\rho)\mathbf{y}_j.$

Da sich die bisher gefundenen Eigenvektoren über den gesamten dimensionalen Raum erstrecken (Beweis: Eine einfache Zeilenreduktion zeigt, dass der Absolutwert ihrer Determinante gleich , was ungleich Null ist), bilden sie eine Basis für alle Eigenvektoren. Wir haben daher alle Eigenwerte gefunden und festgestellt, dass sie entweder oder (letztere mit der Multiplizität ). Neben der bekannten Ungleichung $n$ $n$ $n$ $1+(n-1)\rho$ $1-\rho$ $n-1$ $-1 \le \rho \le 1$ durch alle Korrelationen erfüllt, impliziert die Nicht-Negativität des ersten Eigenwerts weiter

ρ \geq - \frac{1}{n - 1}

$\rho \ge -\frac{1}{n-1}$

während die Nicht-Negativität des zweiten Eigenwertes keine neuen Bedingungen auferlegt.

Nachweis der Angemessenheit der Bedingungen

Die Implikationen wirken in beide Richtungen: vorausgesetzt die Matrix nichtnegativ-definit und daher eine gültige Korrelationsmatrix. Es ist zum Beispiel die Korrelationsmatrix für eine Multinormalverteilung. Insbesondere schreiben $-1/(n-1)\le \rho \le 1,$ $\mathbb{C}(\rho, n)$

Σ (ρ, n) = (1 + (n - 1) ρ) I_{n} - \frac{ρ}{(1 - ρ) (1 + (n - 1) ρ)} 1 1^{'}

$\Sigma(\rho, n) = (1 + (n-1)\rho)\mathbb{I}_n - \frac{\rho}{(1-\rho)(1+(n-1)\rho)}\mathbf{1}\mathbf{1}'$

für die Inverse von wenn Zum Beispiel, wenn $\mathbb{C}(\rho, n)$ $-1/(n-1) \lt \rho \lt 1.$ $n=3$

Σ (ρ, 3) = \frac{1}{(1 - ρ) (1 + 2 ρ)} (\begin{array}{ccc} ρ + 1 & - ρ & - ρ \\ - ρ & ρ + 1 & - ρ \\ - ρ & - ρ & ρ + 1 \end{array}) .

$\color{gray}{\Sigma(\rho, 3) = \frac{1}{(1-\rho)(1+2\rho)} \left( \begin{array}{ccc} \rho +1 & -\rho & -\rho \\ -\rho & \rho +1 & -\rho \\ -\rho & -\rho & \rho +1 \\ \end{array} \right)}.$

$(X_1, X_2, \ldots, X_n)$

f_{ρ, n} (x) = \frac{\exp (- \frac{1}{2} x Σ (ρ, n) x^{'})}{(2 π)^{n / 2} {((1 - ρ)^{n - 1} (1 + (n - 1) ρ))}^{1 / 2}}

$f_{\rho, n}(\mathbf{x}) = \frac{\exp\left(-\frac{1}{2}\mathbf{x}\Sigma(\rho, n)\mathbf{x}'\right)}{(2\pi)^{n/2}\left((1-\rho)^{n-1}(1+(n-1)\rho)\right)^{1/2}}$

$\mathbf{x} = (x_1, x_2, \ldots, x_n)$ $n=3$

\frac{1}{\sqrt{(2 π)^{3} (1 - ρ)^{2} (1 + 2 ρ)}} \exp (- \frac{(1 + ρ) (x^{2} + y^{2} + z^{2}) - 2 ρ (x y + y z + z x)}{2 (1 - ρ) (1 + 2 ρ)}) .

$\color{gray}{\frac{1}{\sqrt{(2\pi)^{3}(1-\rho)^2(1+2\rho)}} \exp\left(-\frac{(1+\rho)(x^2+y^2+z^2) - 2\rho(xy+yz+zx)}{2(1-\rho)(1+2\rho)}\right)}.$

$n$ $\mathbb{C}(\rho, n).$

Zahl

$f_{\rho,3}.$ $\rho=-4/10, 0, 4/10, 8/10$ $x+y+z=0$ $x=y=z$

$\rho = -1/(n-1)$ $\rho = 1$ $\mathbf{x}.\mathbf{1}=0$ $0$ $\mathbf{1}'$ $0$

Mehr über die Nicht-Entartung

$\mathbb{C}(-1/(n-1), n)$ $n-1$ $\mathbb{C}(1, n)$ $1$ $n\ge 2$ $\Sigma(\rho, n)$

whuber
quelle

20

Ihre Korrelationsmatrix ist

(\begin{matrix} 1 & ρ & ρ \\ ρ & 1 & ρ \\ ρ & ρ & 1 \end{matrix})

$\begin{pmatrix} 1&\rho&\rho\\ \rho&1&\rho\\ \rho&\rho&1 \end{pmatrix}$

Die Matrix ist positiv semidefinit, wenn die wichtigsten Minderjährigen alle nicht negativ sind. Die Hauptminderjährigen sind die Determinanten der "Nordwest" -Blöcke der Matrix, dh 1, die Determinante von

(\begin{matrix} 1 & ρ \\ ρ & 1 \end{matrix})

$\begin{pmatrix} 1&\rho\\ \rho&1\end{pmatrix}$

und die Determinante der Korrelationsmatrix selbst.

$1-\rho^2$ $\rho\in[-1,1]$

2 ρ^{3} - 3 ρ^{2} + 1.

$2\rho^3-3\rho^2+1.$

$[-1,1]$ Bildbeschreibung hier eingeben

Sie sehen, dass die Funktion über den durch @stochazesthai angegebenen Bereich nicht negativ ist (was Sie auch überprüfen können, indem Sie die Wurzeln der Determinantengleichung finden).

Christoph Hanck
quelle

V a r () = 1

$Var( )=1$

1

@Anold Sie scheinen "Kovarianz" zu lesen, in der "Korrelation" geschrieben steht.

whuber

6

$X$ $Y$ $Z$ $\rho_{XY} = \rho_{YZ} = \rho_{XZ} = \rho$ $\rho \in [-\frac{1}{2},1]$

stochazesthai
quelle

2

Kannst du das in sehr einfachen Worten erklären?

Elizabeth Susan Joseph

1

Ich glaube nicht, dass es eine Erklärung gibt, die keine Kenntnisse der Matrixalgebra erfordert. Ich schlage vor, dass Sie sich die Wikipedia-Seite ansehen ( en.wikipedia.org/wiki/… ).

Stochazesthai

4

Ich habe eine Erklärung gefunden, die nur grundlegende Algebra (High School Level) erfordert, und diese in meine Antwort aufgenommen.