Wenn die Daten 1d sind, zeigt die Varianz das Ausmaß an, in dem sich die Datenpunkte voneinander unterscheiden. Wenn die Daten mehrdimensional sind, erhalten wir eine Kovarianzmatrix.
Gibt es ein Maß, das angibt, wie unterschiedlich die Datenpunkte im Allgemeinen für mehrdimensionale Daten sind?
Ich habe das Gefühl, dass es bereits viele Lösungen gibt, bin mir aber nicht sicher, welchen Begriff ich verwenden soll, um danach zu suchen.
Vielleicht kann ich so etwas wie die Eigenwerte der Kovarianzmatrix addieren, klingt das vernünftig?
variance
covariance
covariance-matrix
dontloo
quelle
quelle
adding up the eigenvalues of the covariance matrix
ist gleich der oben erwähnten Spurenamöbe.Antworten:
(Die folgende Antwort führt lediglich den in [0] bewiesenen Satz ein und gibt ihn wieder. Das Schöne an diesem Aufsatz ist, dass die meisten Argumente in Bezug auf die lineare Grundalgebra vorgebracht werden. Um diese Frage zu beantworten, reicht es aus, die Hauptergebnisse anzugeben, aber Überprüfen Sie auf jeden Fall die Originalquelle.
In jeder Situation, in der das multivariate Muster der Daten durch eine variable elliptische Verteilung beschrieben werden kann , reduziert sich die statistische Inferenz per Definition auf das Problem der Anpassung (und Charakterisierung) eines k- variablen Ortsvektors (z. B. θ ) und eines k durch k symmetrische semipositive definite Matrix (sagen wir Σ ) zu den Daten. Aus Gründen, die ich im Folgenden erläutere (von denen Sie jedoch bereits ausgehen), ist es oft sinnvoller, Σ in eine Formkomponente (eine SPSD-Matrix mit der gleichen Größe wie Σ ) zu zerlegen, die die Form der Dichtekonturen Ihrer multivariaten Verteilung berücksichtigt und ein Skalar σ Sk k θ k k Σ Σ Σ σS den Maßstab dieser Konturen auszudrücken.
In univariate Daten ( ), Σ , die Kovarianzmatrix Ihrer Daten ist ein Skalar und, wie aus der nachfolgenden Diskussion folgen wird, ist die Form Komponente von Σ ist 1 , so dass Σ gleich seine Skala Komponente Σ = σ S immer und es ist keine Mehrdeutigkeit möglich.k = 1 Σ Σ Σ Σ= σS
In multivariaten Daten sind viele Skalierungsfunktionen möglich. Eins insbesondere ( σ S = | ΣσS ) zeichnet sich durch eine wünschenswerte Schlüsseleigenschaft aus. Dies sollte es zur bevorzugten Wahl des Skalierungsfaktors im Kontext elliptischer Familien machen.σS= | ΣΣ|1 / k
Viele Probleme in der MV-Statistik betreffen die Schätzung einer Streumatrix, die als Funktion (al) symmetrischer, halbpositiver Definit in R k × k definiert ist und die folgende Bedingungen erfüllt:Σ Rk × k
(für nicht singuläre Matrizen A und Vektoren , b ). Zum Beispiel erfüllt die klassische Kovarianzschätzung (0), ist aber keineswegs die einzige.
Bei elliptisch verteilten Daten, bei denen alle Dichtekonturen Ellipsen sind, die durch dieselbe Formmatrix definiert sind, ist es bis zur Multiplikation mit einem Skalar selbstverständlich, normalisierte Versionen von der Form zu berücksichtigen :Σ
wobei eine 1-honogene Funktion ist, die erfüllt:S
für alle . Dann V S ist die Form - Komponente der Streumatrix (in Kurzform - Matrix) und genannte σ S = S 1 / 2 ( Σ ) ist der Maßstab Komponente der Streumatrix bezeichnet. Beispiele für multivariate Schätzprobleme, bei denen die Verlustfunktion nur von Σ durch ihre Formkomponente V S abhängt, umfassen Tests der Sphärizität, PCA und CCA unter anderem.λ>0 VS σS=S1/2(Σ) Σ VS
Natürlich gibt es viele mögliche Skalierungsfunktionen, so dass immer noch die Frage offen bleibt, was (wenn überhaupt) von mehreren Auswahlmöglichkeiten der Normalisierungsfunktion in gewissem Sinne optimal ist. Beispielsweise:S
Es gilt jedoch ist die einzige Skalierungsfunktion, für die die Fisher-Informationsmatrix für die entsprechenden Schätzungen von Maßstab und Form in lokal asymptotisch normalen Familien blockdiagonal ist (dh der Maßstab und die Formkomponenten des Schätzproblems sind asymptotisch orthogonal) [0] ]. Dies bedeutet unter anderem, dass die Skalenfunktion S = | Σ | 1 / k ist die einzige Wahl von S, für die die Nichtspezifikation von & sgr; S keinen Wirkungsgradverlust verursacht, wenn eine Folgerung an V S durchgeführt wird .S=|Σ|1/k S=|Σ|1/k S σS VS
Ich kenne keine vergleichsweise starke Optimalitätscharakterisierung für eine der vielen möglichen Entscheidungen von , die (1) erfüllen.S
quelle
Die Varianz einer skalaren Variablen ist definiert als die quadratische Abweichung der Variablen von ihrem Mittelwert:
Eine Verallgemeinerung zu einer skalarwertigen Varianz für vektorwertige Zufallsvariablen kann erhalten werden, indem die Abweichung als euklidischer Abstand interpretiert wird :
Dieser Ausdruck kann umgeschrieben werden als
whereC is the covariance matrix. Finally, this can be simplified to
which is the trace of the covariance matrix.
quelle
Although the trace of the covariance matrix, tr(C), gives you a measure of the total variance, it does not take into account the correlation between variables.
If you need a measure of overall variance which is large when your variables are independent from each other and is very small when the variables are highly correlated, you can use the determinant of the covariance matrix, |C|.
Please see this article for a better clarification.
quelle
If you need just one number, then I suggest a largest eigen value of a covariance matrix. This is also an explained variance of the first principal component in PCA. It tells you how much total variance can be explained if you reduce the dimensionality of your vector to one. See this answer on math SE.
The idea's that you collapse your vector into just one dimension by combining all variables linearly into one series. You end up with 1d problem.
The explained variance can be reported in % terms to the total variance. In this case you'll see immediately if there is a lot of linear correlation between series. In some applications this number can be 80% and higher, e.g. interest rate curve modeling in finance. It means that you can construct a linear combination of variables that explains 80 of variance of all variables.
quelle
The entropy concept from information theory seems to suit the purpose, as a measure of unpredictability of information content, which is given by
If we assume a multivariate Gaussian distribution forp(x) with mean μ and covariance Σ derived from the data, according to wikipedia, the differential entropy is then,
And it depends on the determinant of the covariance matrix, as @user603 suggests.
quelle