Wird dann bei der Berechnung der Kovarianzmatrix einer Stichprobe garantiert eine symmetrische und positiv definierte Matrix erhalten?
Derzeit hat mein Problem eine Stichprobe von 4600 Beobachtungsvektoren und 24 Dimensionen.
sampling
covariance
Morten
quelle
quelle
Antworten:
Für eine Stichprobe von Vektoren mit ist der Stichprobenmittelwertvektor und die Beispiel-Kovarianzmatrix ist Für einen Vektor ungleich Null haben wir Daher ist immer positiv semidefinit .xi=(xi1,…,xik)⊤ i=1,…,n x¯=1n∑i=1nxi, Q=1n∑i=1n(xi−x¯)(xi−x¯)⊤. y∈Rk y⊤Qy=y⊤(1n∑i=1n(xi−x¯)(xi−x¯)⊤)y
=1n∑i=1ny⊤(xi−x¯)(xi−x¯)⊤y
=1n∑i=1n((xi−x¯)⊤y)2≥0.(∗) Q
Die zusätzliche Bedingung für als positiv bestimmt wurde in Whubers Kommentar unten angegeben. Es geht wie folgt.Q
Definiere für . Für jedes ungleich Null ist genau dann Null, wenn , für jedes . Angenommen, die Menge umfasst . Dann gibt es reelle Zahlen so dass . Aber dann haben wir , was ergibt, dass , ein Widerspruch. Wenn also die Spanne von , dann istzi=(xi−x¯) i=1,…,n y∈Rk (∗) z⊤iy=0 i=1,…,n {z1,…,zn} Rk α1,…,αn y=α1z1+⋯+αnzn y⊤y=α1z⊤1y+⋯+αnz⊤ny=0 y=0 zi Rk Q r ein n k [ Z 1 ... Z n ] = kist positiv definitiv . Diese Bedingung entspricht .rank[z1…zn]=k
quelle
Eine korrekte Kovarianzmatrix ist immer symmetrisch und positiv * semi * definit.
Die Kovarianz zwischen zwei Variablen wird als .σ(x,y)=E[(x−E(x))(y−E(y))]
Diese Gleichung ändert sich nicht, wenn Sie die Positionen von und . Daher muss die Matrix symmetrisch sein.yx y
Es muss auch positiv * semi- * bestimmt sein, weil:
Sie können eine Transformation Ihrer Variablen immer so finden, dass die Kovarianzmatrix diagonal wird. Auf der Diagonale finden Sie die Varianzen Ihrer transformierten Variablen, die entweder Null oder positiv sind. Es ist leicht zu erkennen, dass die transformierte Matrix dadurch positiv semidefinit wird. Da die Definitionsdefinition jedoch transformationsinvariant ist, folgt daraus, dass die Kovarianzmatrix in jedem gewählten Koordinatensystem positiv semidefinit ist.
Wenn Sie Ihre Kovarianzmatrix (d. H., Wenn Sie Ihre Beispielkovarianz berechnen ) mit der oben angegebenen Formel schätzen , wird dies offensichtlich. immer noch symmetrisch sein. Es muss auch positiv semidefinit sein (glaube ich), da für jedes Sample das PDF , das jedem Samplepunkt die gleiche Wahrscheinlichkeit gibt, die Sample-Kovarianz als seine Kovarianz hat (jemand überprüft dies bitte), so dass alles, was oben angegeben wurde, weiterhin gilt.
quelle
Varianz-Kovarianz-Matrizen sind immer symmetrisch, wie aus der tatsächlichen Gleichung hervorgeht, um jeden Term dieser Matrix zu berechnen.
Außerdem sind Varianz-Kovarianz-Matrizen immer quadratische Matrizen der Größe n, wobei n die Anzahl der Variablen in Ihrem Experiment ist.
Eigenvektoren symmetrischer Matrizen sind immer orthogonal.
Mit PCA bestimmen Sie die Eigenwerte der Matrix, um festzustellen, ob Sie die Anzahl der in Ihrem Experiment verwendeten Variablen verringern können.
quelle
Ich möchte dem netten Argument von Zen das Folgende hinzufügen, das erklärt, warum wir oft sagen, dass die Kovarianzmatrix positiv bestimmt ist, wenn .n−1≥k
Wenn eine Zufallsstichprobe einer kontinuierlichen Wahrscheinlichkeitsverteilung sind, dann sind (im Sinne der Wahrscheinlichkeitstheorie) fast sicher linear unabhängig. Nun sind nicht linear unabhängig, weil , sondern weil so linear unabhängig ist, als span . Wenn , dann überspannen sie auch .x1,x2,...,xn x1,x2,...,xn z1,z2,...,zn ∑ni=1zi=0 x1,x2,...,xn R n - 1 n - 1 ≥ k R kz1,z2,...,zn Rn−1 n−1≥k Rk
Um zu schließen, wenn eine Zufallsstichprobe einer kontinuierlichen Wahrscheinlichkeitsverteilung und , ist die Kovarianzmatrix positiv bestimmt. n - 1 ≥ kx1,x2,...,xn n−1≥k
quelle
Für diejenigen mit einem nicht-mathematischen Hintergrund wie ich, die die abstrakten mathematischen Formeln nicht schnell verstehen, ist dies ein ausgearbeitetes Beispiel für die am besten bewertete Antwort. Die Kovarianzmatrix kann auch auf andere Weise abgeleitet werden.
quelle