Intuition / Interpretation einer Verteilung von Eigenwerten einer Korrelationsmatrix?

13

Was ist Ihre Intuition / Interpretation einer Verteilung von Eigenwerten einer Korrelationsmatrix? Ich neige dazu zu hören, dass normalerweise 3 größte Eigenwerte am wichtigsten sind, während diejenigen nahe Null Rauschen sind. Ich habe auch einige Forschungsarbeiten gesehen, in denen untersucht wurde, wie sich natürlich vorkommende Eigenwertverteilungen von denen unterscheiden, die aus zufälligen Korrelationsmatrizen berechnet wurden (wiederum Rauschen von Signal unterscheiden).

Bitte zögern Sie nicht, Ihre Erkenntnisse zu erläutern.

Eduardas
quelle
Denken Sie an eine bestimmte Anwendung, dh suchen Sie nach allgemeinen Hinweisen darüber, wie viele Elektrofahrzeuge wir neben einer Anwendung (dh auf einer rein mathematischen Seite) berücksichtigen müssen, oder sollten sie für einen bestimmten Kontext gelten (z. B. Faktoranalyse, PCA usw.)?
Chl
Ich interessiere mich mehr für die mathematische Seite, dh Eigenwerte als Eigenschaft der Daten, die einer Korrelationsmatrix zugrunde liegen. Wenn es sinnvoll ist, dies in einem bestimmten Kontext zu diskutieren, können Sie dies auch tun.
Eduardas

Antworten:

4

Ich neige dazu zu hören, dass normalerweise 3 größte Eigenwerte am wichtigsten sind, während diejenigen nahe Null Rauschen sind

Sie können das testen. Weitere Informationen finden Sie in dem in diesem Beitrag verlinkten Artikel. Wenn Sie sich mit finanziellen Zeitreihen befassen, möchten Sie möglicherweise zuerst die Leptokurtizität korrigieren (dh berücksichtigen Sie die Reihe der garchbereinigten Renditen, nicht die Roherträge).

Ich habe einige Forschungsarbeiten gesehen, in denen untersucht wurde, wie sich natürlich vorkommende Eigenwertverteilungen von denen unterscheiden, die aus zufälligen Korrelationsmatrizen berechnet wurden (wiederum Rauschen von Signal unterscheiden).

Edward:> Normalerweise würde man es anders herum machen: Sehen Sie sich die multivariate Verteilung der Eigenwerte (der Korrelationsmatrizen) an, die aus der gewünschten Anwendung stammen. Sobald Sie einen glaubwürdigen Kandidaten für die Verteilung von Eigenwerten identifiziert haben, sollte es ziemlich einfach sein, daraus zu generieren.

Das beste Verfahren zum Identifizieren der multivariaten Verteilung Ihrer Eigenwerte hängt davon ab, wie viele Assets Sie gleichzeitig berücksichtigen möchten (dh wie groß ist Ihre Korrelationsmatrix?). Es gibt einen ordentlichen Trick, wenn ( ist die Anzahl der Assets).pp10p

Bearbeiten (Kommentare von Shabbychef)

Vier-Schritte-Verfahren:

  1. Angenommen, Sie haben Unterproben multivariater Daten. Sie benötigen für jede Teilstichprobe einen Schätzer der Varianz-Kovarianz-Matrix (Sie können den klassischen Schätzer oder eine robuste Alternative wie die schnelle MCD verwenden , die in matlab, SAS, S, gut implementiert ist). R, ...). Wenn Sie sich mit finanziellen Zeitreihen befassen, möchten Sie wie üblich die Reihe der garchbereinigten Renditen berücksichtigen, nicht die Roherträge.˜ C j jj=1,...,JC~jj
  2. Berechnen Sie für jede Unterprobe , ..., die Eigenwerte von .˜ Λ j = log ( ˜ λ j 1 ) log ( ˜ λ j p ) ˜ C jjΛ~j= log(λ~1j)log(λ~pj)C~j
  3. Berechnen Sie , die konvexe Hülle der Matrix, deren j-ter Eintrag (dies ist wiederum in Matlab, R, ... gut implementiert). .J × p ˜ Λ jCV(Λ~)J×pΛ~j
  4. Zeichnen Sie zufällig Punkte aus dem (dies erfolgt durch Gewichtung für jede Kante des wobei , wobei ein Draw aus einer Exponentialverteilungseinheit ist (weitere Details hier ).w i C V ( ~ Λ ) w i = γ iCV(Λ~)wiCV(Λ~) γiwi=γii=1pγiγi

Eine Einschränkung besteht darin, dass die schnelle Berechnung der konvexen Hülle einer Reihe von Punkten extrem langsam wird, wenn die Anzahl der Dimensionen größer als 10 ist.J2

user603
quelle
1
Ich bin neugierig: Was ist der Trick?
Shabbychef
C~
λ1
Dies ist eine sehr merkwürdige Prozedur; Wurde es irgendwo veröffentlicht?
Shabbychef
@Shabbychev:> nein, aber ich hatte vor einiger Zeit die Gelegenheit, an einem verwandten Problem zu arbeiten (nur nicht an einem mit Zeitreihen) (dasselbe Problem wie dieses stats.stackexchange.com/questions/2572/… )
user603
11

Eigenwerte geben die Größen der Hauptkomponenten der Datenverbreitung an.


(Quelle: yaroslavvb.com ) Der
erste Datensatz wurde aus Gauß mit Kovarianzmatrix ) generiert(3001)π/4

Yaroslav Bulatov
quelle
2

k

Normalerweise ist das erste Eigenportfolio in jedem Namen fast gleich gewichtet, dh das Marktportfolio, das aus allen Vermögenswerten mit gleichem Dollargewicht besteht. Das zweite Eigenportfolio kann eine semantische Bedeutung haben, je nachdem, welchen Zeitraum Sie betrachten: z. B. hauptsächlich Energieaktien oder Bankaktien usw. Nach meiner Erfahrung fällt es Ihnen schwer, aus dem fünften Eigenportfolio oder darüber hinaus eine Geschichte zu machen. und dies hängt in einem Teil der Universumsauswahl und dem betrachteten Zeitraum ab. Dies ist in Ordnung, da normalerweise der fünfte Eigenwert oder so nicht zu weit über den durch die Marchenko-Pastur-Verteilung auferlegten Grenzen liegt.

shabbychef
quelle
1

NN

Vili
quelle