Ein Maß für die "Varianz" aus der Kovarianzmatrix?

16

Wenn die Daten 1d sind, zeigt die Varianz das Ausmaß an, in dem sich die Datenpunkte voneinander unterscheiden. Wenn die Daten mehrdimensional sind, erhalten wir eine Kovarianzmatrix.

Gibt es ein Maß, das angibt, wie unterschiedlich die Datenpunkte im Allgemeinen für mehrdimensionale Daten sind?

Ich habe das Gefühl, dass es bereits viele Lösungen gibt, bin mir aber nicht sicher, welchen Begriff ich verwenden soll, um danach zu suchen.

Vielleicht kann ich so etwas wie die Eigenwerte der Kovarianzmatrix addieren, klingt das vernünftig?

variance covariance covariance-matrix dontloo
quelle

2

Determinante der Kovarianzmatrix. Ich werde bald eine ausführlichere Antwort veröffentlichen.

User603

5

Trace wird sehr oft verwendet. In PCA ist der von jeder Komponente erklärte Varianzanteil ein Bruchteil der "Gesamtvarianz", die als Spur der Kovarianzmatrix definiert ist. @ user603 Freue mich auf deine Antwort.

Amöbe sagt Reinstate Monica

2

adding up the eigenvalues of the covariance matrixist gleich der oben erwähnten Spurenamöbe.

TTNPHNS

Wofür sollte die Maßnahme angewendet werden?

HelloGoodbye

@HelloGoodbye hi, eigentlich habe ich einige [verrauschte] Daten mit Beschriftungen, und ich gehe im Voraus davon aus, dass die [wahren] Datenpunkte innerhalb derselben Kategorie nicht sehr unterschiedlich sein sollten. Ich suche nach einer Möglichkeit, den Grad der Unterschiede der Datenpunkte innerhalb jeder Kategorie zu messen, damit ich eine Vorstellung davon bekomme, wie verrauscht die Daten für jede Kategorie sind.

Dontloo

15

(Die folgende Antwort führt lediglich den in [0] bewiesenen Satz ein und gibt ihn wieder. Das Schöne an diesem Aufsatz ist, dass die meisten Argumente in Bezug auf die lineare Grundalgebra vorgebracht werden. Um diese Frage zu beantworten, reicht es aus, die Hauptergebnisse anzugeben, aber Überprüfen Sie auf jeden Fall die Originalquelle.

In jeder Situation, in der das multivariate Muster der Daten durch eine variable elliptische Verteilung beschrieben werden kann , reduziert sich die statistische Inferenz per Definition auf das Problem der Anpassung (und Charakterisierung) eines variablen Ortsvektors (z. B. ) und eines durch symmetrische semipositive definite Matrix (sagen wir ) zu den Daten. Aus Gründen, die ich im Folgenden erläutere (von denen Sie jedoch bereits ausgehen), ist es oft sinnvoller, in eine Formkomponente (eine SPSD-Matrix mit der gleichen Größe wie ) zu zerlegen, die die Form der Dichtekonturen Ihrer multivariaten Verteilung berücksichtigt und ein Skalar $k$ $k$ $\boldsymbol\theta$ $k$ $k$ $\boldsymbol\varSigma$ $\boldsymbol\varSigma$ $\boldsymbol\varSigma$ $\sigma_S$ den Maßstab dieser Konturen auszudrücken.

In univariate Daten ( ), , die Kovarianzmatrix Ihrer Daten ist ein Skalar und, wie aus der nachfolgenden Diskussion folgen wird, ist die Form Komponente von ist 1 , so dass gleich seine Skala Komponente immer und es ist keine Mehrdeutigkeit möglich. $k=1$ $\boldsymbol\varSigma$ $\boldsymbol\varSigma$ $\boldsymbol\varSigma$ $\boldsymbol\varSigma=\sigma_S$

In multivariaten Daten sind viele Skalierungsfunktionen möglich. Eins insbesondere ( $\sigma_S$ ) zeichnet sich durch eine wünschenswerte Schlüsseleigenschaft aus. Dies sollte es zur bevorzugten Wahl des Skalierungsfaktors im Kontext elliptischer Familien machen. $\sigma_S=|\pmb\varSigma|^{1/k}$

Viele Probleme in der MV-Statistik betreffen die Schätzung einer Streumatrix, die als Funktion (al) symmetrischer, halbpositiver Definit in und die folgende Bedingungen erfüllt: $\boldsymbol\varSigma$ $\mathbb{R}^{k\times k}$

(für nicht singuläre Matrizen und Vektoren ). Zum Beispiel erfüllt die klassische Kovarianzschätzung (0), ist aber keineswegs die einzige.

(0) Σ (EIN X + b) = EIN Σ (X) {EIN}^{⊤}

$(0)\quad\boldsymbol\varSigma(\boldsymbol A\boldsymbol X+\boldsymbol b)=\boldsymbol A\boldsymbol\varSigma(\boldsymbol X)\boldsymbol A^\top$

A

$\boldsymbol A$

b

$\boldsymbol b$

Bei elliptisch verteilten Daten, bei denen alle Dichtekonturen Ellipsen sind, die durch dieselbe Formmatrix definiert sind, ist es bis zur Multiplikation mit einem Skalar selbstverständlich, normalisierte Versionen von der Form zu berücksichtigen : $\boldsymbol\varSigma$

V_{S} = Σ / S (Σ)

$\boldsymbol V_S = \boldsymbol\varSigma / S(\boldsymbol\varSigma)$

wobei eine 1-honogene Funktion ist, die erfüllt: $S$

(1) S (λ Σ) = λ S (Σ)

$(1)\quad S(\lambda \boldsymbol\varSigma)=\lambda S(\boldsymbol\varSigma)$

für alle . Dann ist die Form - Komponente der Streumatrix (in Kurzform - Matrix) und genannte ist der Maßstab Komponente der Streumatrix bezeichnet. Beispiele für multivariate Schätzprobleme, bei denen die Verlustfunktion nur von durch ihre Formkomponente abhängt, umfassen Tests der Sphärizität, PCA und CCA unter anderem. $\lambda>0$ $\boldsymbol V_S$ $\sigma_S=S^{1/2}(\boldsymbol\varSigma)$ $\boldsymbol\varSigma$ $\boldsymbol V_S$

Natürlich gibt es viele mögliche Skalierungsfunktionen, so dass immer noch die Frage offen bleibt, was (wenn überhaupt) von mehreren Auswahlmöglichkeiten der Normalisierungsfunktion in gewissem Sinne optimal ist. Beispielsweise: $S$

(zum Beispiel der von @amoeba in seinem Kommentar unter der Frage des OP vorgeschlagene. Siehe auch [1], [2], [3]) $S=\text{tr}(\boldsymbol\varSigma)/k$
([4], [5], [6], [7], [8]) $S=|\boldsymbol\varSigma|^{1/k}$
(der erste Eintrag der Kovarianzmatrix) $\boldsymbol\varSigma_{11}$
(der erste Eigenwert von ) $\lambda_1(\boldsymbol\varSigma)$ $\boldsymbol\varSigma$

Es gilt jedoch ist die einzige Skalierungsfunktion, für die die Fisher-Informationsmatrix für die entsprechenden Schätzungen von Maßstab und Form in lokal asymptotisch normalen Familien blockdiagonal ist (dh der Maßstab und die Formkomponenten des Schätzproblems sind asymptotisch orthogonal) [0] ]. Dies bedeutet unter anderem, dass die Skalenfunktion ist die einzige Wahl von für die die Nichtspezifikation von keinen Wirkungsgradverlust verursacht, wenn eine Folgerung an . $S=|\boldsymbol\varSigma|^{1/k}$ $S=|\boldsymbol\varSigma|^{1/k}$ $S$ $\sigma_S$ $\boldsymbol V_S$

Ich kenne keine vergleichsweise starke Optimalitätscharakterisierung für eine der vielen möglichen Entscheidungen von , die (1) erfüllen. $S$

[0] Paindaveine, D., Eine kanonische Definition der Form, Statistics & Probability Letters, Band 78, Ausgabe 14, 1. Oktober 2008, Seiten 2240-2247. Ungated Link
[1] Dumbgen, L. (1998). Über Tylers M-Funktional der Streuung in hohen Dimensionen, Ann. Inst. Statist. Mathematik. 50, 471–491.
[2] Ollila, E., TP Hettmansperger und H. Oja (2004). Affine äquivariante multivariate Vorzeichenmethoden. Preprint, Universität Jyväskylä.
[3] Tyler, DE (1983). Robustheits- und Effizienzmerkmale von Streumatrizen, Biometrika 70, 411–420.
[4] Dumbgen, L. und DE Tyler (2005). Zu den Durchschlusseigenschaften einiger multivariater M-Funktionalen hat Scand. J. Statist. 32, 247–264.
[5] Hallin, M. und D. Paindaveine (2008). Optimale rangbasierte Tests für die Homogenität der Streuung, Ann. Statist., Erscheinen.
[6] Salibian-Barrera, M., S. Van Aelst und G. Willems (200 6). Hauptkomponentenanalyse basierend auf multivariaten MM-Schätzern mit schnellem und robustem Bootstrap, J. Amer. Statist. Assoc. 101, 1198–1211.
[7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila und H. O. Ja (2006). Einflussfunktionen und Wirkungsgrade der kanonischen Korrelation und Vektorschätzungen basierend auf Streu- und Formmatrizen, J. Multivariate Anal. 97, 359–384.
[8] Tatsuoka, KS und DE Tyler (2000). Zur Einzigartigkeit von S-Funktionalen und M-Funktionalen unter nichtelliptischen Verteilungen, Ann. Statist. 28, 1219–1243.

user603
quelle

1

Außerdem ist

eine seltsame Wahl für die Skalenkomponente, da sie nicht rotationsinvariant ist ...

Σ_{11}

$\varSigma_{11}$

Amöbe sagt Reinstate Monica

Danke für die überlegte Antwort! Es wird allerdings einige Zeit dauern, bis ich es vollständig verstanden habe :)

dontloo

@amoeba:

angewendet auf

Σ

$\boldsymbol\varSigma$

. Ich lasse das

X X

$\pmb X$

im Rest der Antwort, da keine Verwechslung möglich ist. Ich bin damit einverstanden, dass es ein bisschen ungeschickt ist, also benutze ich jetzt

X X

$\pmb X$

. Ich stimme Ihrem zweiten Kommentar zu. Aus dem gleichen Grund ist

für eine Neuskalierung nicht invariant. In diesem Sinne ist die Homogenitätsbedingung für

ein sehr niedriger Balken.

Σ (X X)

$\boldsymbol\varSigma(\pmb X)$

λ_{1} (Σ)

$\lambda_1(\boldsymbol\varSigma)$

S

$S$

User603

Warten; warum sollte man wollen oder erwarten, dass die Skalierungskomponente gegenüber einer Neuskalierung unveränderlich ist?

Amöbe sagt Reinstate Monica

Entschuldigung, ich meinte, wenn Sie

als Skalierungsfunktion verwenden, ist die resultierende Formmatrix nicht gleichbedeutend mit einer Neuskalierung.

λ_{1} (Σ)

$\lambda_1(\boldsymbol\varSigma)$

User603

10

Die Varianz einer skalaren Variablen ist definiert als die quadratische Abweichung der Variablen von ihrem Mittelwert:

Var (X) = E [{(X - E [X])}^{2}]

$\operatorname{Var}(X) = \operatorname E\left[\left(X - \operatorname E\left[X\right]\right)^2\right]$

Eine Verallgemeinerung zu einer skalarwertigen Varianz für vektorwertige Zufallsvariablen kann erhalten werden, indem die Abweichung als euklidischer Abstand interpretiert wird :

V a r_{s} (X) = E [{‖ X - E [X] ‖}_{2}^{2}]

$\operatorname{Var_s}(\mathbf X) = \operatorname E\left[\left\|\mathbf X - \operatorname E\left[\mathbf X\right]\right\|_2^2\right]$

Dieser Ausdruck kann umgeschrieben werden als

\begin{array}{rcl} V a r_{s} (X) & = & E [(X - E [X]) \cdot (X - E [X])] \\ = & E [\sum_{i = 1}^{n} (X_{i} - E [X_{i}])^{2}] \\ = & \sum_{i = 1}^{n} E [(X_{i} - E [X_{i}])^{2}] \\ = & \sum_{i = 1}^{n} Var (X_{i}) \\ = & \sum_{i = 1}^{n} C_{i i} \end{array}

$\begin{array}{rcl} \operatorname{Var_s}(\mathbf X) & = & \operatorname E[(\mathbf X - \operatorname E[\mathbf X ])\cdot(\mathbf X - \operatorname E[\mathbf X ])] \\ & = & \operatorname E\left[\sum_{i=1}^n(X_i - \operatorname E[X_i])^2\right] \\ & = & \sum_{i=1}^n \operatorname E\left[(X_i - \operatorname E[X_i])^2\right] \\ & = & \sum_{i=1}^n \operatorname{Var}(X_i) \\ & = & \sum_{i=1}^n C_{ii} \end{array}$

where $\mathbf{C}$ is the covariance matrix. Finally, this can be simplified to

V a r_{s} (X) = tr (C)

$\operatorname{Var_s}(X) = \operatorname{tr}(\mathbf{C})$

which is the trace of the covariance matrix.

HelloGoodbye
quelle

4

Although the trace of the covariance matrix, tr(C), gives you a measure of the total variance, it does not take into account the correlation between variables.

If you need a measure of overall variance which is large when your variables are independent from each other and is very small when the variables are highly correlated, you can use the determinant of the covariance matrix, |C|.

Please see this article for a better clarification.

Sahar
quelle

4

If you need just one number, then I suggest a largest eigen value of a covariance matrix. This is also an explained variance of the first principal component in PCA. It tells you how much total variance can be explained if you reduce the dimensionality of your vector to one. See this answer on math SE.

The idea's that you collapse your vector into just one dimension by combining all variables linearly into one series. You end up with 1d problem.

The explained variance can be reported in % terms to the total variance. In this case you'll see immediately if there is a lot of linear correlation between series. In some applications this number can be 80% and higher, e.g. interest rate curve modeling in finance. It means that you can construct a linear combination of variables that explains 80 of variance of all variables.

Aksakal
quelle

3

The entropy concept from information theory seems to suit the purpose, as a measure of unpredictability of information content, which is given by

H (X) = - \int p (x) \log p (x) d x .

$H(X)=-\int p(x)\log p(x) dx.$

If we assume a multivariate Gaussian distribution for $p(x)$ with mean $\mu$ and covariance $\Sigma$ derived from the data, according to wikipedia, the differential entropy is then,

H (X) = \frac{1}{2} \log ((2 π e)^{n} det (Σ))

$H(X)=\frac{1}{2}\log((2\pi e)^n\det(\Sigma))$ where

n

$n$ is the number of dimensions. Since multivariate Gaussian is the distribution that maximizes the differential entropy for given covariance, this formula gives an entropy upper bound for an unknown distribution with a given variance.

And it depends on the determinant of the covariance matrix, as @user603 suggests.

dontloo
quelle

This answer doesn't seem to be in the same spirit as the question. Covariances and variances are properties of any distribution (although they might be infinite or undefined in some cases), whereas this answer focuses on an exceedingly special case of a multivariate Normal distribution. It therefore doesn't apply to most of the situations implicitly envisioned in the question. Could you perhaps elaborate on the sense in which your answer could be construed as providing some useful guidance in the general case where the data aren't necessarily Normal?

whuber

@whuber thanks for the suggestion i guess maybe i should rewrite Gaussian as "the distribution that maximizes the entropy given a variance"? then the result will become some upper bound. what do you think?

dontloo

That sounds like it's going somewhere useful and more general.

whuber

1

I guess there are many ways to skin a cat;). I actually thing the link between your answer and mine are very strong. I have a minor quibble; I think the determinant has some optimality property for the problem you try to solve (and need not just be chosen on grounds of familiarity) and I think these optimality properties extend beyond covariance matrices (they hold for the determinant of whatever scatter functional you happen to chose and there are many out there) and extend beyond the Gaussian distribution (to the whole elliptical family).

user603

Ein Maß für die "Varianz" aus der Kovarianzmatrix?

Antworten: