Ausreichende und notwendige Bedingungen für den Null-Eigenwert einer Korrelationsmatrix

11

Bei Zufallsvariablen mit der Wahrscheinlichkeitsverteilung ist die Korrelationsmatrix positiv semidefinit, dh ihre Eigenwerte sind positiv oder Null.nXiP(X1,,Xn)Cij=E[XiXj]E[Xi]E[Xj]

Ich interessiere mich für die Bedingungen auf , die notwendig sind und / oder ausreichend für haben Null Eigenwerte. Eine ausreichende Bedingung ist beispielsweise, dass die Zufallsvariablen nicht unabhängig sind: für einige reelle Zahlen . Wenn beispielsweise , dann ist , ein Eigenvektor von mit einem Eigenwert von Null. Wenn wir unabhängige lineare Bedingungen für die dieses Typs haben, würde dies Null-Eigenwerte implizieren .PCmiuiXi=0uiP(X1,,Xn)=δ(X1X2)p(X2,,Xn)u=(1,1,0,,0)CmXim

Es gibt mindestens eine zusätzliche (aber triviale) Möglichkeit, wenn für einige (dh ), da darin Fall hat eine Spalte und eine Zeile mit Nullen: . Da es nicht wirklich interessant ist, gehe ich davon aus, dass die Wahrscheinlichkeitsverteilung nicht von dieser Form ist.a P ( X 1 , , X n ) δ ( X a - E [ X a ] ) C i j C i a = C a i = 0 ,Xa=E[Xa]aP(X1,,Xn)δ(XaE[Xa])CijCia=Cai=0,i

Meine Frage ist: Sind lineare Einschränkungen die einzige Möglichkeit, Null-Eigenwerte zu induzieren (wenn wir die oben angegebene triviale Ausnahme verbieten), oder können nichtlineare Einschränkungen für die Zufallsvariablen auch Null-Eigenwerte von erzeugen ?C

Adam
quelle
1
Per Definition ist eine Sammlung von Vektoren, die den Nullvektor enthält, linear abhängig, sodass Ihre zusätzliche Möglichkeit nichts Neues oder Anderes ist. Könnten Sie bitte erklären, was Sie unter "einen Eigenwert haben" verstehen ? Das sieht nach einem Tippfehler aus. m
whuber
@whuber: ja, Tippfehler. Korrigiert. Ich denke, die beiden Bedingungen sind unterschiedlich: Eine die Beziehung zwischen den Variablen, während die andere die Wahrscheinlichkeit nur einer Variablen (nämlich ). p(Xa)=δ(XaE(Xa))
Adam
Die Formulierung Ihrer Frage ist verwirrend. Es sieht aus wie ein Elementarsatz der linearen Algebra, aber die Verweise auf "unabhängige" Zufallsvariablen legen nahe, dass es sich um etwas ganz anderes handeln könnte. Wäre es richtig zu verstehen, dass Sie jedes Mal, wenn Sie "unabhängig" verwenden, im Sinne einer linearen Unabhängigkeit und nicht im Sinne von (statistisch) unabhängigen Zufallsvariablen meinen? Ihr Verweis auf "fehlende Daten" ist noch verwirrender, da er darauf hindeutet, dass Ihre "Zufallsvariablen" tatsächlich nur Spalten einer Datenmatrix bedeuten könnten. Es wäre gut, wenn diese Bedeutungen geklärt würden.
whuber
@whuber: Ich habe die Frage bearbeitet. Hoffentlich ist es klarer.
Adam
Die Bedingung für die Unabhängigkeit muss nicht unbedingt Null sein (jede Konstante reicht aus), es sei denn, der Mittelwert jedes ist Null. X iiuiXi=0Xi
Sextus Empiricus

Antworten:

6

Vielleicht können wir durch Vereinfachung der Notation die wesentlichen Ideen hervorheben. Es stellt sich heraus, dass wir keine Erwartungen oder komplizierten Formeln benötigen, da alles rein algebraisch ist.


Die algebraische Natur der mathematischen Objekte

Die Frage betrifft Beziehungen zwischen (1) der Kovarianzmatrix einer endlichen Menge von Zufallsvariablen und (2) linearen Beziehungen zwischen diesen Variablen, die als Vektoren betrachtet werden .X1,,Xn

Der fragliche Vektorraum ist die Menge aller Zufallsvariablen mit endlicher Varianz (auf einem gegebenen Wahrscheinlichkeitsraum ) modulo der Unterraum von fast sicher konstanten Variablen, bezeichnet als (Das heißt, wir betrachten zwei Zufallsvariablen und als denselben Vektor, wenn keine Wahrscheinlichkeit besteht, dass von seiner Erwartung abweicht.) Wir haben es nur mit dem endlichdimensionalen Vektor zu tun Der vom erzeugte Raum macht dies eher zu einem algebraischen als zu einem analytischen Problem.L 2 ( Ω , P ) / R . X Y X - Y V X i ,(Ω,P)L2(Ω,P)/R.XYXYVXi,

Was wir über Abweichungen wissen müssen

V ist mehr als nur ein Vektorraum: Es ist ein quadratisches Modul, weil es mit der Varianz ausgestattet ist. Alles, was wir über Abweichungen wissen müssen, sind zwei Dinge:

  1. Die Varianz ist eine skalarwertige Funktion mit der Eigenschaft, dass für alle VektorenQ ( a X ) = ein 2 Q ( X ) X .QQ(aX)=a2Q(X)X.

  2. Die Varianz ist nicht entartet.

Der zweite bedarf einer Erklärung. bestimmt ein "Punktprodukt", das eine symmetrische bilineare Form ist, die durch gegeben istQ

XY=14(Q(X+Y)Q(XY)).

(Dies ist natürlich nichts anderes als die Kovarianz der Variablen und ) Die Vektoren und sind orthogonal, wenn ihr Punktprodukt ist Das orthogonale Komplement einer beliebigen Menge von Vektoren besteht aus allen orthogonalen Vektoren zu jedem Element von geschriebenY . X Y 0. AV A ,XY.XY0.AVA,

A0={vVa.v=0 for all vV}.

Es ist eindeutig ein Vektorraum. Wenn , ist nicht entartet.Q.V0={0}Q

Lassen Sie mich beweisen, dass die Varianz tatsächlich nicht entartet ist, auch wenn dies offensichtlich erscheint. Angenommen, ist ein Element ungleich Null von Dies bedeutet für allegleichwertigV 0 . X Y = 0 Y V ;XV0.XY=0YV;

Q(X+Y)=Q(XY)

für alle Vektoren Wenn man ergibt sichY = X.Y.Y=X

4Q(X)=Q(2X)=Q(X+X)=Q(XX)=Q(0)=0

und somit ist Wir wissen jedoch (vielleicht unter Verwendung von Chebyshevs Ungleichung), dass die einzigen Zufallsvariablen mit einer Varianz von Null fast sicher konstant sind, was sie mit dem Nullvektor in QED identifiziert .V ,Q(X)=0.V,

Die Fragen interpretieren

Zurück zu den Fragen: In der vorhergehenden Notation ist die Kovarianzmatrix der Zufallsvariablen nur ein reguläres Array aller ihrer Punktprodukte.

T=(XiXj).

Es gibt eine gute Möglichkeit, über nachzudenken : Es definiert eine lineare Transformation für auf die übliche Weise, indem ein beliebiger Vektor in den Vektor dessen -Komponente durch die Matrixmultiplikationsregel gegeben istR n x = ( x 1 , , x n ) R n T ( x ) = y = ( y 1 , , x n ) i thTRnx=(x1,,xn)RnT(x)=y=(y1,,xn)ith

yi=j=1n(XiXj)xj.

Der Kern dieser linearen Transformation ist der Unterraum, den er an Null sendet:

Ker(T)={xRnT(x)=0}.

Die vorstehende Gleichung impliziert, dass wenn für jedesixKer(T),i

0=yi=j=1n(XiXj)xj=Xi(jxjXj).

Da dies für jedes gilt es für alle vom aufgespannten Vektoren : nämlich selbst. Wenn also der durch gegebene Vektor in Da die Varianz nicht entartet ist, bedeutet dies Das heißt, beschreibt eine lineare Abhängigkeit zwischen den ursprünglichen Zufallsvariablen.i,XiVxKer(T),jxjXjV0.jxjXj=0.xn

Sie können leicht überprüfen, ob diese Argumentationskette umkehrbar ist:

Lineare Abhängigkeiten zwischen als Vektoren stehen in Eins-zu-Eins-Entsprechung mit Elementen des Kernels vonXj T.

(Denken Sie daran, dass diese Anweisung das als bis zu einer konstanten Ortsverschiebung definiert betrachtet, als Elemente von anstatt als as nur Zufallsvariablen.)XjL2(Ω,P)/R

Schließlich ist per Definition ein Eigenwert von ein beliebiger Skalar für den ein Vektor ungleich Null mit Wenn ein Eigenwert ist, ist der Raum der zugehörigen Eigenvektoren (offensichtlich) der Kern vonTλxT(x)=λx.λ=0T.


Zusammenfassung

Wir haben die Antwort auf die Fragen gefunden: Die Menge der linearen Abhängigkeiten der Zufallsvariablen, qua Elemente von entspricht eins zu eins mit der Kern ihrer Kovarianzmatrix Dies liegt daran, dass die Varianz eine nicht entartete quadratische Form ist. Der Kernel ist auch der Eigenraum, der dem Null-Eigenwert zugeordnet ist (oder nur der Null-Unterraum, wenn kein Null-Eigenwert vorhanden ist).L2(Ω,P)/R,T.


Referenz

Ich habe die Notation und einen Teil der Sprache von Kapitel IV in weitgehend übernommen

Jean-Pierre Serre, Ein Kurs in Arithmetik. Springer-Verlag 1973.

whuber
quelle
Whoa, das ist großartig! Nur eine Frage, um sicherzugehen, dass ich alles verstehe: Wenn Sie " als Vektoren" schreiben, meinen Sie nicht, die Zufallsvariablen in einem Vektor zu sammeln (dh ), oder? Wenn ich recht habe, schätze ich, dass Sie die möglichen Werte der Zufallsvariablen in einem Vektor sammeln , während die Wahrscheinlichkeitsverteilung in der Definition der Varianz verborgen ist, oder? XjX=(X1,,Xn)Xi
Adam
Ich denke, der Hauptaspekt, der nicht ganz klar ist, ist der folgende (was möglicherweise meinen Mangel an formalen Kenntnissen der Wahrscheinlichkeitstheorie zeigt): Sie scheinen zu zeigen, dass wir, wenn es einen 0-Eigenwert gibt, zB . Diese Einschränkung bezieht sich nicht auf die Wahrscheinlichkeitsverteilung , die in verborgen ist (ich denke, dies ist der kluge Punkt bei dieser Demonstration). Aber was bedeutet das, ohne Bezug auf ? Oder impliziert es nur , aber woher wissen wir dann, dass es eine lineare Kombination von und in der Delta-Funktion sein muss ?X1=X2PQX1=X2PPδ(X1X2)X1X2
Adam
Ich fürchte, ich verstehe Ihre Verwendung einer "Delta-Funktion" in diesem Zusammenhang nicht, Adam. Das liegt zum einen daran, dass ich keine Notwendigkeit dafür sehe, und zum anderen daran, dass die Notation nicht eindeutig ist: Wäre das zum Beispiel ein Kronecker-Delta oder ein Dirac-Delta?
whuber
Es wäre ein Kronecker oder ein Dirac, abhängig von den Variablen (diskret oder kontinuierlich). Diese Deltas könnten Teil des Integrationsmaßes sein, z. B. integriere ich über 2-mal-2-Matrizen (also vier reelle Variablen , , und mit etwas Gewicht (sagen wir ), oder ich integriere über eine Untergruppe. Wenn es sich um symmetrische Matrizen handelt (was beispielsweise impliziert ), kann ich dies formal durch Multiplizieren von mit auferlegen . Dies wäre eine lineare Einschränkung . in den Kommentaren unten Martijn Weterings Antwort Ein Beispiel für eine Einschränkung nichtlinearen gegeben ist.MX1X2X3X4P=exp(tr(M.MT))X2=X3Pδ(X1X2)
Adam
(Fortsetzung) Die Frage ist: Welche nichtlinearen Einschränkungen, die ich meinen Variablen hinzufügen kann, können einen 0-Eigenwert induzieren. Nach Ihren Antworten scheint es zu sein: Nur nichtlineare Einschränkungen, die lineare Einschränkungen implizieren (wie in den Kommentaren unter Martijn Weterings 'Antwort veranschaulicht). Vielleicht liegt das Problem darin, dass ich das Problem aus physikalischer Sicht betrachte und es schwierig ist, es in einer anderen Sprache zu erklären (ich denke, hier ist der richtige Ort, um diese Frage zu stellen, keine Physik. SE).
Adam
5

Die lineare Unabhängigkeit ist nicht nur ausreichend, sondern auch eine notwendige Bedingung

Um zu zeigen, dass die Varianz-Kovarianz-Matrix genau dann Eigenwerte gleich Null aufweist, wenn die Variablen nicht linear unabhängig sind, muss nur gezeigt werden, dass "wenn die Matrix Eigenwerte gleich Null hat, die Variablen nicht linear unabhängig sind".

Wenn Sie einen Null-Eigenwert für gibt es eine lineare Kombination (definiert durch den Eigenvektor ).Cij=Cov(Xi,Xj)v

Y=i=1nvi(Xi)

so dass

Cov(Y,Y)=i=1nj=1nvivjCov(Xi,Xj)=i=1nvij=1nvjCij=i=1nvi0=0

was bedeutet , dass eine Konstante sein muss und somit die Variablen haben , summieren sich zu einer konstanten und entweder Konstanten selbst (die triviale Fall) oder nicht linear unabhängig sind .YXi

- Die erste Zeile in der Gleichung mit ist auf die Eigenschaft der KovarianzCov(Y,Y)

Cov(aU+bV,cW+dX)=acCov(U,W)+bcCov(V,W)+adCov(U,X)+bdCov(V,X)

- Der Schritt von der zweiten zur dritten Zeile beruht auf der Eigenschaft eines Null-Eigenwerts

j=1nvjCij=0


Nichtlineare Einschränkungen

Da lineare Bedingungen eine notwendige Bedingung sind (nicht nur ausreichend), sind nichtlineare Bedingungen nur dann relevant, wenn sie indirekt eine (notwendige) lineare Bedingung implizieren.

Tatsächlich besteht eine direkte Entsprechung zwischen den mit dem Null-Eigenwert verbundenen Eigenvektoren und den linearen Einschränkungen.

Cv=0Y=i=1nviXi=const

Daher müssen nichtlineare Einschränkungen, die zu einem Eigenwert von Null führen, zusammen eine lineare Einschränkung erzeugen.


Wie können nichtlineare Einschränkungen zu linearen Einschränkungen führen?

Ihr Beispiel in den Kommentaren kann dies intuitiv zeigen, wie nichtlineare Einschränkungen durch Umkehren der Ableitung zu linearen Einschränkungen führen können. Die folgenden nichtlinearen Einschränkungen

a2+b2=1c2+d2=1ac+bd=0adbc=1

kann auf reduziert werden

a2+b2=1c2+d2=1ad=0b+c=0

Sie könnten dies umkehren . Angenommen, Sie haben nichtlineare plus lineare Einschränkungen, dann ist es nicht ungewöhnlich, sich vorzustellen, wie wir eine der linearen Einschränkungen durch eine nichtlineare Einschränkung ersetzen können, indem wir die linearen Einschränkungen in die nichtlinearen Einschränkungen füllen. Wenn wir beispielsweise und in der nichtlinearen Form , können Sie eine andere Beziehung . Und wenn Sie und multiplizieren, erhalten Sie .a=db=ca2+b2=1adbc=1a=dc=bac=bd

Sextus Empiricus
quelle
Ich denke, dies (und die Antwort von whuber) ist eine indirekte Antwort auf meine Frage (die lautete: "Ist lineare Abhängigkeit der einzige Weg, um einen Null-Eigenwert zu erhalten") auf diese Weise: selbst wenn die Abhängigkeit zwischen den Zufallsvariablen nicht ist linear kann es immer als lineare Abhängigkeit umgeschrieben werden, indem einfach . Obwohl ich wirklich nach einer Möglichkeit gesucht habe, die möglichen nichtlinearen Einschränkungen selbst zu charakterisieren, denke ich, dass dies dennoch ein nützliches Ergebnis ist. Y=iνiXi
Adam
Ja, ich weiß ... was ich sage ist, dass wenn es eine nichtlineare Abhängigkeit gibt und es einen Null-Eigenwert gibt, dann bedeutet Ihre Antwort, dass die nichtlineare Abhängigkeit auf irgendeine Weise "berücksichtigt" werden kann in eine lineare Abhängigkeit. Es ist eine schwächere Version von dem, wonach ich gesucht habe, aber immer noch etwas.
Adam
Sie geben ein Beispiel, das nicht funktioniert, was nicht bedeutet, dass es nicht der Fall sein kann ...
Adam
Hier ist ein Gegenbeispiel für Ihre Aussage (wenn Sie der Meinung sind, dass dies nicht der Fall ist, kann es uns helfen, herauszufinden, was mit meiner Formulierung des Problems nicht stimmt :)): Nehmen Sie eine 2-mal-2-Zufallsmatrix mit der nichtlineare Bedingung und . Diese 3 nichtlinearen Einschränkungen können in Form von 2 linearen Einschränkungen und einer linearen umgeschrieben werden: Dies bedeutet, dass die Kovarianzmatrix zwei 0-Eigenvektoren hat. Entfernen Sie die Einschränkung , und sie verschwinden. MM.MT=1detM=1detM=1
Adam
M11=X1 , , und . Die Einschränkungen sind , , (nur zwei sind unabhängig). Sie implizieren keinen Null-Eigenwert. Das Addieren von impliziert jedoch zwei Eigenvektoren mit 0 Eigenwerten. M12=X2M21=X3M22=X4X12+X22=1X32+X42=1X1X3+X2X4=0X1X4X2X3=1
Adam
2

Angenommen, hat einen Eigenvektor mit dem entsprechenden Eigenwert , dann ist . Somit ist aufgrund der Ungleichung von Chebyshev fast sicher konstant und gleich . Das heißt, jeder Null-Eigenwert entspricht einer linearen Beschränkung, nämlich . Sonderfälle müssen nicht berücksichtigt werden.v 0 var ( v T X ) = v T C v = 0 v T X v T E [ X ] v T X = v T E [ X ]Cv0var(vTX)=vTCv=0vTXvTE[X]vTX=vTE[X]

Wir schließen daraus:

"Sind lineare Bedingungen der einzige Weg, um Null-Eigenwerte zu induzieren [?]"

Ja.

"Können nichtlineare Einschränkungen der Zufallsvariablen auch Null-Eigenwerte von C erzeugen?"

Ja, wenn sie lineare Einschränkungen implizieren.

ekvall
quelle
Genau. Ich hatte gehofft, dass man die Art der nichtlinearen Einschränkungen genauer beschreiben könnte, aber ich denke, dass es schwierig ist, es besser zu machen, wenn wir die Einschränkungen nicht spezifizieren.
Adam
2

Der Kovarianz-Marix von ist symmetrisch, sodass Sie ihn als mit den Eigenwerten in der Diagonalmatrix diagnostizieren könnenWenn dies als umgeschrieben wird, ist rhs die Kovarianzmatrix von , sodass Null-Eigenwerte auf den lhs linearen Kombinationen von mit entarteten Verteilungen entsprechen.X C = Q Λ Q T Λ . Λ = Q T C Q Q T X X.CXC=QΛQTΛ.Λ=QTCQQTXX

Hasse1987
quelle
Dies ist eine sehr schöne, prägnante Beschreibung, aber wie können wir es intuitiver machen, dass ? QTCQ=cov(QTX)
Sextus Empiricus