Gibt es eine intuitive Interpretation von für eine Datenmatrix ?

107

Für eine gegebene Datenmatrix (mit Variablen in Spalten und Datenpunkten in Zeilen) scheint eine wichtige Rolle in der Statistik zu spielen. Zum Beispiel ist es ein wichtiger Teil der analytischen Lösung von gewöhnlichen kleinsten Quadraten. Oder für PCA sind seine Eigenvektoren die Hauptkomponenten der Daten. $A$ $A^TA$

Ich verstehe, wie man berechnet , aber ich habe mich gefragt, ob es eine intuitive Interpretation dessen gibt, was diese Matrix darstellt, was zu ihrer wichtigen Rolle führt. $A^TA$

matrix covariance-matrix correlation-matrix Alec
quelle

2

Die Analyse unter stats.stackexchange.com/a/66295/919 könnte eine gewisse Intuition vermitteln .

Whuber

125

Geometrisch heißt Matrix Matrix von Skalarprodukten (= Punktprodukte, = innere Produkte). Algebraisch wird es als Quadratsummen- und Kreuzproduktmatrix ( SSCP ) bezeichnet. $\bf A'A$

Sein tes Diagonalelement ist gleich , wobei Werte in der ten Spalte von und die Summe über Zeilen ist. Das te außerhalb der Diagonale liegende Element ist . $i$ $\sum a_{(i)}^2$ $a_{(i)}$ $i$ $\bf A$ $\sum$ $ij$ $\sum a_{(i)}a_{(j)}$

Es gibt eine Reihe wichtiger Assoziationskoeffizienten, deren quadratische Matrizen als Winkelähnlichkeiten oder SSCP-Ähnlichkeiten bezeichnet werden:

Teilen Sie die SSCP-Matrix durch , die Stichprobengröße oder die Anzahl der Zeilen von , und Sie erhalten die MSCP -Matrix (Mean-Square-and-Cross-Product). Die paarweise Formel dieses Assoziationsmaßes lautet daher (wobei die Vektoren und ein Spaltenpaar aus ). $n$ $\bf A$ $\frac{\sum xy}{n}$ $x$ $y$ $\bf A$
Wenn Sie zentrieren Spalten (Variablen) von , dann ist die Streuung (oder Co-Streuung, wenn streng zu sein) Matrix und ist die Kovarianz Matrix. Die paarweise Kovarianzformel lautet wobei und zentrierte Spalten bezeichnen. $\bf A$ $\bf A'A$ $\mathbf {A'A}/(n-1)$ $\frac{\sum c_xc_y}{n-1}$ $c_x$ $c_y$
Wenn Sie z- Spalten von standardisieren (den Spaltenmittelwert subtrahieren und durch die Standardabweichung dividieren), ist die Pearson- Korrelationsmatrix : Korrelation ist Kovarianz für standardisierte Variablen. Die paarweise Korrelationsformel lautet wobei und standardisierte Spalten bezeichnen. Die Korrelation wird auch Linearitätskoeffizient genannt. $\bf A$ $\mathbf {A'A}/(n-1)$ $\frac{\sum z_xz_y}{n-1}$ $z_x$ $z_y$
Wenn Sie Spalten von Einheiten skalieren (bringen Sie ihre SS, Quadratsumme, auf 1), dann ist die Cosinus- Ähnlichkeitsmatrix. Die äquivalente paarweise Formel scheint somit zu sein: wobei und L2-normalisierte Spalten bezeichnen . Cosinus-Ähnlichkeit wird auch als Proportionalitätskoeffizient bezeichnet. $\bf A$ $\bf A'A$ $\sum u_xu_y = \frac{\sum{xy}}{\sqrt{\sum x^2}\sqrt{\sum y^2}}$ $u_x$ $u_y$
Wenn Sie zentrieren und dann fonds- Skala Spalten , dann ist wieder die Pearson Korrelationsmatrix, da Korrelation Cosinus für zentrierten Variablen : $\bf A$ $\bf A'A$ $^{1,2}$ $\sum cu_xcu_y = \frac{\sum{c_xc_y}}{\sqrt{\sum c_x^2}\sqrt{\sum c_y^2}}$

Lassen Sie uns neben diesen vier einige andere erwähnen, die ebenfalls auf , um das . Sie können als Alternative zur Kosinusähnlichkeit angesehen werden, da sie anders als die Normalisierung den Nenner in der Formel annehmen: $\bf A'A$

Der Identitätskoeffizient [Zegers & ten Berge, 1985] hat seinen Nenner in Form eines arithmetischen Mittels anstelle eines geometrischen Mittels: . Es kann genau dann 1 sein, wenn die zu vergleichenden Spalten von identisch sind. $\frac{\sum{xy}}{(\sum x^2+\sum y^2)/2}$ $\bf A$
Ein anderer verwendbarer Koeffizient, wie er genannt wird, heißt Ähnlichkeitsverhältnis : . $\frac{\sum{xy}}{\sum x^2 + \sum y^2 -\sum {xy}} = \frac{\sum{xy}}{\sum {xy} + \sum {(x-y)^2}}$
Wenn die Werte in sind und ihre Summe in den Spalten 1 ist (z. B. Proportionen), dann ist die Matrix der Wiedergabetreue oder der Bhattacharyya- Koeffizient. $\bf A$ $\bf \sqrt {A}'\sqrt A$

$^1$ Eine Methode zur Berechnung der Korrelations- oder Kovarianzmatrix, die von vielen Statistikpaketen verwendet wird, umgeht die Datenzentrierung und verlässt auf diese Weise direkt die SSCP-Matrix . Sei der Zeilenvektor der Spaltensummen von Daten während die Anzahl der Zeilen in den Daten ist. Dann (1) berechne die Streumatrix als [von da an wird die Kovarianzmatrix sein]; (2) die Diagonale von ist die Summe der quadratischen Abweichungen, Zeilenvektor ; (3) Berechne die Korrelationsmatrix . $\bf A'A$ $\bf s$ $\bf A$ $n$ $\bf C = A'A-s's/ \it n$ $\mathbf C/(n-1)$ $\bf C$ $\bf d$ $\bf R=C/\sqrt{d'd}$

$^2$ Ein akuter, aber statistisch unerfahrener Leser könnte es schwierig finden, die beiden Definitionen der Korrelation in Einklang zu bringen - als "Kovarianz" (einschließlich Mittelung nach Stichprobengröße, Division durch df = "n-1") und als "Kosinus" (was impliziert) keine solche Mittelung). Tatsächlich findet jedoch keine echte Mittelwertbildung in der ersten Korrelationsformel statt. Die Sache ist, dass st. Die Abweichung, durch die die z-Standardisierung erreicht wurde, wurde wiederum mit der Division durch denselben df berechnet . und so wird der Nenner "n-1" in der Formel der Korrelation als Kovarianz vollständig aufgehoben, wenn Sie die Formel auspacken: Die Formel wird zur Formel des Kosinus . Um den empirischen Korrelationswert zu berechnen, müssen Sie nicht kennen $n$ (außer wenn der Mittelwert berechnet wird, um zu zentrieren).

ttnphns
quelle

42

Die Matrix enthält alle Skalarprodukte aller Spalten in . Die Diagonale enthält also die quadratischen Normen der Spalten. Wenn Sie sich mit Geometrie und orthogonalen Projektionen auf den von den Spalten in aufgespannten Spaltenraum befassen , können Sie sich daran erinnern, dass Normen und innere Produkte der Vektoren, die diesen Raum aufspannen, eine zentrale Rolle bei der Berechnung der Projektion spielen. Die Regression der kleinsten Quadrate sowie die Hauptkomponenten können als orthogonale Projektionen verstanden werden. $A^TA$ $A$ $A$

Beachten Sie auch, dass wenn die Spalten von orthonormal sind und somit eine orthonormale Basis für den Spaltenraum bilden, die Identitätsmatrix. $A$ $A^TA = I$ $-$

NRH
quelle

39

@ NRH gab eine gute technische Antwort.

Wenn Sie etwas wirklich Grundlegendes wollen, können Sie sich als das Matrixäquivalent von für einen Skalar vorstellen. $A^TA$ $A^2$

Peter Flom
quelle

5

Obwohl andere Antworten "technisch" korrekter sind, ist dies die intuitivste Antwort.

CatsLoveJazz

3

Eine wichtige Ansicht der Geometrie von ist die folgende (der in Strangs Buch über "Lineare Algebra und ihre Anwendungen" stark hervorgehobene Gesichtspunkt): Angenommen, A ist eine Matrix des Ranges k, die eine lineare Karte . Lassen Col (A) und Zeile (A) sind die Spalten- und Reihenräume sein . Dann $A'A$ $m \times n$ $A: R^n \rightarrow R^m$ $A$

(a) Als reelle symmetrische Matrix hat eine Basis von Eigenvektoren mit Nicht-Null-Eigenwerten . Somit: $(A'A): R^n \rightarrow R^n$ $\{e_1,..., e_n\}$ $d_1,\ldots,d_k$

$(A'A)(x_1e_1 + \ldots + x_ne_n) = d_1x_1e_1 + ... + d_kx_ke_k$ .

(b) Bereich (A) = Col (A) gemäß Definition von Col (A). Also ordnet A | Row (A) Row (A) Col (A) zu.

(c) Kern (A) ist das orthogonale Komplement von Reihe (A). Dies liegt daran, dass die Matrixmultiplikation in Bezug auf die Punktprodukte (Zeile i) * (Spalte j) definiert ist. (Also ist $Av'= 0 \iff \text{v is in Kernel(A)} \iff v \text{is in orthogonal complement of Row(A)}$

(d) und ist ein Isomorphismus . $A(R^n)=A(\text{Row}(A))$ $A|\text{Row(A)}:\text{Row(A)} \rightarrow Col(A)$

Reason: If v = r+k (r \in Row(A), k \in Kernel(A),from (c)) then
A(v) = A(r) + 0 = A(r) where A(r) = 0 <==> r = 0$.

[Gibt übrigens einen Beweis, dass Zeilenrang = Spaltenrang!]

(e) Anwenden von (d), ist ein Isomorphismus $A'|:Col(A)=\text{Row(A)} \rightarrow \text{Col(A')}=\text{Row(A)}$

(f) Durch (d) und (e): und A'A ordnet Zeile (A) isomorph Zeile (A) zu. $A'A(R^n) = \text{Row(A)}$

Marshall M. Cohen
quelle

2

Sie können eine Formel in $ und $ , um .

L A T E X

$\LaTeX$

Placidia

2

Obwohl bereits diskutiert wurde, dass die Bedeutung von Punktprodukten hat, möchte ich nur eine grafische Darstellung dieser Multiplikation hinzufügen. $\textbf{A}^T\textbf{A}$

Während Zeilen der Matrix (und Spalten der Matrix ) Variablen darstellen, behandeln wir jede Variablenmessung als einen mehrdimensionalen Vektor. Das Multiplizieren der Zeile von mit der Spalte von entspricht dem Punktprodukt zweier Vektoren: - das Ergebnis ist der Eintrag an der Position innerhalb der Matrix . $\textbf{A}^T$ $\textbf{A}$ $row_p$ $\textbf{A}^T$ $col_p$ $\textbf{A}$ $dot(row_p, col_p)$ $(p,p)$ $\textbf{A}^T \textbf{A}$

In ähnlicher Weise entspricht das Multiplizieren der Zeile von mit der Spalte von dem Skalarprodukt: mit dem Ergebnis an der Position . $p$ $\textbf{A}^T$ $k$ $\textbf{A}$ $dot(row_p, col_k)$ $(p,k)$

Der Eintrag der resultierenden Matrix hat die Bedeutung, wie viel der Vektor in Richtung des Vektors . Wenn das Skalarprodukt zweier Vektoren und andere ist als Null ist , einige Informationen über einen Vektor wird getragen durch einen Vektor , und umgekehrt. $(p, k)$ $\textbf{A}^T\textbf{A}$ $row_p$ $col_k$ $row_i$ $col_j$ $row_i$ $col_j$

Diese Idee spielt eine wichtige Rolle in der Hauptkomponentenanalyse, bei der wir eine neue Darstellung unserer anfänglichen Datenmatrix finden möchten, sodass zu keiner Spalte in einer anderen Spalte mehr Informationen übertragen werden . Wenn Sie PCA genauer studieren, werden Sie feststellen, dass eine "neue Version" der Kovarianzmatrix berechnet wird und zu einer Diagonalmatrix wird, die ich Ihnen überlassen habe, um zu erkennen, dass ... in der Tat das ist, was ich im vorherigen Satz ausgedrückt habe. $\textbf{A}$ $i$ $j \neq i$

camillejr
quelle

1

Es gibt Ebenen der Intuition. Für diejenigen, die mit Instatistiken der Matrixnotation vertraut sind, besteht die Intuition darin, sie als ein Quadrat der Zufallsvariablen zu betrachten: vs $x\to E[x^2]$ $A\to A^TA$

In der Matrixnotation wird eine Stichprobe der Zufallsvariablen Beobachtungen oder einer Population durch einen Spaltenvektor dargestellt: $x$ $x_i$

a = [\begin{matrix} x_{1} \\ x_{2} \\ \dots \\ x_{n} \end{matrix}]

$a=\begin{bmatrix} x_1 \\ x_2 \\ \dots \\ x_n \end{bmatrix}$

Wenn Sie also einen Stichprobenmittelwert des Quadrats der Variablen möchten, erhalten Sie einfach ein Punktprodukt , das in der Matrixnotation dasselbe ist wie . $x$

\bar{x^{2}} = \frac{a \cdot a}{n}

$\bar{x^2}=\frac{a\cdot a} n$

A^{T} A

$A^TA$

Beachten Sie, dass, wenn der Stichprobenmittelwert der Variablen NULL ist, die Varianz gleich dem Mittelwert des Quadrats ist: , analog zu . Dies ist der Grund, warum Sie in PCA den Mittelwert Null benötigen und warum angezeigt wird, nachdem PCA die Varianzmatrix des Datensatzes zerlegt hat. $\sigma^2=E[x^2]$ $A^TA$ $A^TA$

Aksakal
quelle

Gibt es eine intuitive Interpretation von für eine Datenmatrix ?

Antworten: