Für eine gegebene Datenmatrix (mit Variablen in Spalten und Datenpunkten in Zeilen) scheint eine wichtige Rolle in der Statistik zu spielen. Zum Beispiel ist es ein wichtiger Teil der analytischen Lösung von gewöhnlichen kleinsten Quadraten. Oder für PCA sind seine Eigenvektoren die Hauptkomponenten der Daten.A T A
Ich verstehe, wie man berechnet , aber ich habe mich gefragt, ob es eine intuitive Interpretation dessen gibt, was diese Matrix darstellt, was zu ihrer wichtigen Rolle führt.
Antworten:
Geometrisch heißt Matrix Matrix von Skalarprodukten (= Punktprodukte, = innere Produkte). Algebraisch wird es als Quadratsummen- und Kreuzproduktmatrix ( SSCP ) bezeichnet.A′A
Sein tes Diagonalelement ist gleich , wobei Werte in der ten Spalte von und die Summe über Zeilen ist. Das te außerhalb der Diagonale liegende Element ist .& Sgr; a 2 ( i ) a ( i ) , i A Σ i j Σ a ( i ) , a ( j )i ∑a2(i) a(i) i A ∑ ij ∑a(i)a(j)
Es gibt eine Reihe wichtiger Assoziationskoeffizienten, deren quadratische Matrizen als Winkelähnlichkeiten oder SSCP-Ähnlichkeiten bezeichnet werden:
Teilen Sie die SSCP-Matrix durch , die Stichprobengröße oder die Anzahl der Zeilen von , und Sie erhalten die MSCP -Matrix (Mean-Square-and-Cross-Product). Die paarweise Formel dieses Assoziationsmaßes lautet daher (wobei die Vektoren und ein Spaltenpaar aus ).A ∑ x yn A xyA∑xyn x y A
Wenn Sie zentrieren Spalten (Variablen) von , dann ist die Streuung (oder Co-Streuung, wenn streng zu sein) Matrix und ist die Kovarianz Matrix. Die paarweise Kovarianzformel lautet wobei und zentrierte Spalten bezeichnen.A ' A A ' A / ( n - 1 ) ≤ c x c yA A′A A′A/(n−1) cxcy∑cxcyn−1 cx cy
Wenn Sie z- Spalten von standardisieren (den Spaltenmittelwert subtrahieren und durch die Standardabweichung dividieren), ist die Pearson- Korrelationsmatrix : Korrelation ist Kovarianz für standardisierte Variablen. Die paarweise Korrelationsformel lautet wobei und standardisierte Spalten bezeichnen. Die Korrelation wird auch Linearitätskoeffizient genannt.A ' A / ( n - 1 ) ≤ z x z yA A′A/(n−1) zxzy∑zxzyn−1 zx zy
Wenn Sie Spalten von Einheiten skalieren (bringen Sie ihre SS, Quadratsumme, auf 1), dann ist die Cosinus- Ähnlichkeitsmatrix. Die äquivalente paarweise Formel scheint somit zu sein: wobei und L2-normalisierte Spalten bezeichnen . Cosinus-Ähnlichkeit wird auch als Proportionalitätskoeffizient bezeichnet.A ' A ∑ u x u y = ∑ x yA A′A uxuy∑uxuy=∑xy∑x2√∑y2√ ux uy
Wenn Sie zentrieren und dann fonds- Skala Spalten , dann ist wieder die Pearson Korrelationsmatrix, da Korrelation Cosinus für zentrierten Variablen :A ' A 1 , 2 ≤ c u x c u y = ≤ c x c yA A′A 1,2 ∑cuxcuy=∑cxcy∑c2x√∑c2y√
Lassen Sie uns neben diesen vier einige andere erwähnen, die ebenfalls auf , um das . Sie können als Alternative zur Kosinusähnlichkeit angesehen werden, da sie anders als die Normalisierung den Nenner in der Formel annehmen:A′A
Der Identitätskoeffizient [Zegers & ten Berge, 1985] hat seinen Nenner in Form eines arithmetischen Mittels anstelle eines geometrischen Mittels: . Es kann genau dann 1 sein, wenn die zu vergleichenden Spalten von identisch sind. A∑xy(∑x2+∑y2)/2 A
Ein anderer verwendbarer Koeffizient, wie er genannt wird, heißt Ähnlichkeitsverhältnis : .∑xy∑x2+∑y2−∑xy=∑xy∑xy+∑(x−y)2
Wenn die Werte in sind und ihre Summe in den Spalten 1 ist (z. B. Proportionen), dann ist die Matrix der Wiedergabetreue oder der Bhattacharyya- Koeffizient.√A A−−√′A−−√
quelle
Die Matrix enthält alle Skalarprodukte aller Spalten in . Die Diagonale enthält also die quadratischen Normen der Spalten. Wenn Sie sich mit Geometrie und orthogonalen Projektionen auf den von den Spalten in aufgespannten Spaltenraum befassen , können Sie sich daran erinnern, dass Normen und innere Produkte der Vektoren, die diesen Raum aufspannen, eine zentrale Rolle bei der Berechnung der Projektion spielen. Die Regression der kleinsten Quadrate sowie die Hauptkomponenten können als orthogonale Projektionen verstanden werden.ATA A A
Beachten Sie auch, dass wenn die Spalten von orthonormal sind und somit eine orthonormale Basis für den Spaltenraum bilden, die Identitätsmatrix.A ATA=I −
quelle
@ NRH gab eine gute technische Antwort.
Wenn Sie etwas wirklich Grundlegendes wollen, können Sie sich als das Matrixäquivalent von für einen Skalar vorstellen.ATA A2
quelle
Eine wichtige Ansicht der Geometrie von ist die folgende (der in Strangs Buch über "Lineare Algebra und ihre Anwendungen" stark hervorgehobene Gesichtspunkt): Angenommen, A ist eine Matrix des Ranges k, die eine lineare Karte . Lassen Col (A) und Zeile (A) sind die Spalten- und Reihenräume sein . DannA′A m×n A:Rn→Rm A
(a) Als reelle symmetrische Matrix hat eine Basis von Eigenvektoren mit Nicht-Null-Eigenwerten . Somit:(A′A):Rn→Rn {e1,...,en} d1,…,dk
(b) Bereich (A) = Col (A) gemäß Definition von Col (A). Also ordnet A | Row (A) Row (A) Col (A) zu.
(c) Kern (A) ist das orthogonale Komplement von Reihe (A). Dies liegt daran, dass die Matrixmultiplikation in Bezug auf die Punktprodukte (Zeile i) * (Spalte j) definiert ist. (Also istAv′=0⟺v is in Kernel(A)⟺vis in orthogonal complement of Row(A)
(d) und ist ein Isomorphismus .A(Rn)=A(Row(A)) A|Row(A):Row(A)→Col(A)
[Gibt übrigens einen Beweis, dass Zeilenrang = Spaltenrang!]
(e) Anwenden von (d), ist ein IsomorphismusA′|:Col(A)=Row(A)→Col(A')=Row(A)
(f) Durch (d) und (e): und A'A ordnet Zeile (A) isomorph Zeile (A) zu.A′A(Rn)=Row(A)
quelle
Obwohl bereits diskutiert wurde, dass die Bedeutung von Punktprodukten hat, möchte ich nur eine grafische Darstellung dieser Multiplikation hinzufügen.ATA
Während Zeilen der Matrix (und Spalten der Matrix ) Variablen darstellen, behandeln wir jede Variablenmessung als einen mehrdimensionalen Vektor. Das Multiplizieren der Zeile von mit der Spalte von entspricht dem Punktprodukt zweier Vektoren: - das Ergebnis ist der Eintrag an der Position innerhalb der Matrix .AT A rowp AT colp A dot(rowp,colp) (p,p) ATA
In ähnlicher Weise entspricht das Multiplizieren der Zeile von mit der Spalte von dem Skalarprodukt: mit dem Ergebnis an der Position .p AT k A dot(rowp,colk) (p,k)
Der Eintrag der resultierenden Matrix hat die Bedeutung, wie viel der Vektor in Richtung des Vektors . Wenn das Skalarprodukt zweier Vektoren und andere ist als Null ist , einige Informationen über einen Vektor wird getragen durch einen Vektor , und umgekehrt.(p,k) ATA rowp colk rowi colj rowi colj
Diese Idee spielt eine wichtige Rolle in der Hauptkomponentenanalyse, bei der wir eine neue Darstellung unserer anfänglichen Datenmatrix finden möchten, sodass zu keiner Spalte in einer anderen Spalte mehr Informationen übertragen werden . Wenn Sie PCA genauer studieren, werden Sie feststellen, dass eine "neue Version" der Kovarianzmatrix berechnet wird und zu einer Diagonalmatrix wird, die ich Ihnen überlassen habe, um zu erkennen, dass ... in der Tat das ist, was ich im vorherigen Satz ausgedrückt habe.A i j≠i
quelle
Es gibt Ebenen der Intuition. Für diejenigen, die mit Instatistiken der Matrixnotation vertraut sind, besteht die Intuition darin, sie als ein Quadrat der Zufallsvariablen zu betrachten: vsx→E[x2] A→ATA
In der Matrixnotation wird eine Stichprobe der Zufallsvariablen Beobachtungen oder einer Population durch einen Spaltenvektor dargestellt:x xi a=⎡⎣⎢⎢⎢x1x2…xn⎤⎦⎥⎥⎥
Wenn Sie also einen Stichprobenmittelwert des Quadrats der Variablen möchten, erhalten Sie einfach ein Punktprodukt , das in der Matrixnotation dasselbe ist wie .x x2¯=a⋅an ATA
Beachten Sie, dass, wenn der Stichprobenmittelwert der Variablen NULL ist, die Varianz gleich dem Mittelwert des Quadrats ist: , analog zu . Dies ist der Grund, warum Sie in PCA den Mittelwert Null benötigen und warum angezeigt wird, nachdem PCA die Varianzmatrix des Datensatzes zerlegt hat.σ2=E[x2] ATA ATA
quelle