Die Verteilung der Eigenwerte bei einem ist bekannt

Ich bin mit der Verwendung von Erkenntnissen aus der Zufallsmatrixtheorie vertraut, um die Anzahl der Hauptkomponenten aus der PCA einer Kovarianz- / Korrelationsmatrix zu bestimmen, die zur Bildung von Faktoren verwendet werden sollen.

Wenn der dem ersten PC zugeordnete Eigenwert groß ist, bedeutet dies, dass die verbleibenden Eigenwerte klein sein müssen (da die Summe der Eigenwerte der Spur der Korrelationsmatrix entsprechen muss). Wenn der erste PC groß genug ist, ist es daher möglich, dass alle diese Eigenwerte unterhalb der unteren Grenzen der Marcenko-Pastur-Verteilung liegen. Dies macht Sinn, dass sie nicht zufällig sind, sondern weil der erste Eigenwert sehr groß ist. Dies bedeutet jedoch nicht, dass sie wichtige Informationen enthalten. Es wäre vielmehr sinnvoll, stattdessen die Frage zu stellen: "Wenn der erste PC eine große Zahl ist, wie würde die Verteilung der verbleibenden Eigenwerte aussehen, wenn zufällige Daten für sie verantwortlich wären?"

Gibt es Forschungsergebnisse, die sich mit diesem Problem befassen? Wenn es möglich ist, die Marcenko-Pastur-Verteilung von der Kenntnis eines oder mehrerer Eigenwerte abhängig zu machen, wäre es möglich, iterativ vorzugehen, um zu bestimmen, ob die Faktoren signifikante Informationen widerspiegeln.

correlation pca covariance eigenvalues random-matrix John
quelle

Sprechen Sie nur von zufälligen Ein-Faktor-Daten (zufälliges Sphäroid)?

ttnphns

Ich bin mir nicht sicher, was Sie unter zufälligem Sphäroid verstehen, aber im Allgemeinen kann es mehr als einen zu testenden Faktor geben. Ich hatte es so ausgearbeitet, dass das bedingte Eigenwertproblem als , wobei die mit dem verbundenen Eigenvektoren sind größte Eigenwerte, aber was ich als Ungleichungen finden konnte, die die Eigenwerte des Produkts zweier Matrizen binden, schien ziemlich breit.

e i g (Σ (I - β β^{'})^{'} (I - β β^{'}))

$eig(\Sigma(I-\beta\beta')'(I-\beta\beta'))$

β

$\beta$

n

$n$

John

Wenn ich eine Sekunde darüber nachdenke, denke ich, dass ich die richtigen Ergebnisse erzielt habe.

\tilde{λ} \pm = (1 + \frac{1}{Q} \pm 2 \sqrt{\frac{1}{Q}}) (\sum_{i = 1}^{n} λ_{i} - \sum_{j = 1}^{J} λ_{j}) / n

$\widetilde{\lambda}\pm=\left(1+\frac{1}{Q}\pm2\sqrt{\frac{1}{Q}}\right)\left( \sum_{i=1}^{n}\lambda_{i}-\sum_{j=1}^{J}\lambda_{j}\right)/n$

John

Antworten:

Hier ist ein Dokument zu Ihrem Problem: http://math.nyu.edu/faculty/avellane/LalouxPCA.pdf

Die Idee ist einfach: Sie berechnen die Marcenko-Pastur-Verteilung mit einer modifizierten Varianz der Elemente der Matrix. Die modifizierte Varianz entspricht einfach der Varianz, die durch einen anderen Eigenwert als den ersten erklärt wird.

Wie von John gesagt, müssen Sie durch ersetzen für die ersten Eigenwerte. Wenn Sie Ihr Problem normalisiert haben und nur die erste Komponente entfernen möchten, müssen Sie durch ersetzen . Sie erhalten: $\sigma^2$ $(\sum_{i=1}^{n}\lambda_{i}-\sum_{j=1}^{J}\lambda_{j})/n$ $J$ $\sigma^2$ $\frac{1-\lambda_{1}}{n}$

ρ^{'} (λ) = \frac{n Q}{2 π (1 - λ_{1})} (\frac{\sqrt{(λ_{m a x} - λ) (λ - λ_{m i n})}}{λ})

$\rho'(\lambda)= \frac{nQ}{2\pi(1-\lambda_{1})}(\frac{\sqrt{(\lambda_{max}-\lambda)(\lambda-\lambda_{min})}}{\lambda})$

Mit:

λ_{m i n / m a x} = \frac{n}{(1 - λ_{1})} (1 + \frac{1}{Q} \pm 2 \sqrt{\frac{1}{Q}})

$\lambda_{min/max}= \frac{n}{(1-\lambda_{1})}(1+\frac{1}{Q}\pm2\sqrt{\frac{1}{Q}})$

Da Ihre Matrix wahrscheinlich mehr Informationen enthält als nur einen großen Eigenwert und Rauschen, werden Sie einen gewissen Unterschied feststellen. Zum Beispiel können wir in Marktkorrelationsstudien einen Verlust der Eigenwerte am oberen Rand des Spektrums beobachten. (Es entspricht den Finanzsektoren).

Ein anderer in diesem Dokument erwähnter Ansatz besteht darin, als einen einzelnen Parameter in der Marcenko-Weideverteilung zu betrachten. Sie müssen diesen Parameter dann an Ihre Kurve anpassen. $\sigma^2$

Weitere nützliche Techniken und Referenzen finden Sie unter: http://arxiv.org/abs/physics/0507111

lcrmorin
quelle

Diese Formel muss auch Q überarbeiten, da sich die Anzahl der Spalten um 1 verringert hat.

Rohit Arora