Ich bin mit der Verwendung von Erkenntnissen aus der Zufallsmatrixtheorie vertraut, um die Anzahl der Hauptkomponenten aus der PCA einer Kovarianz- / Korrelationsmatrix zu bestimmen, die zur Bildung von Faktoren verwendet werden sollen.
Wenn der dem ersten PC zugeordnete Eigenwert groß ist, bedeutet dies, dass die verbleibenden Eigenwerte klein sein müssen (da die Summe der Eigenwerte der Spur der Korrelationsmatrix entsprechen muss). Wenn der erste PC groß genug ist, ist es daher möglich, dass alle diese Eigenwerte unterhalb der unteren Grenzen der Marcenko-Pastur-Verteilung liegen. Dies macht Sinn, dass sie nicht zufällig sind, sondern weil der erste Eigenwert sehr groß ist. Dies bedeutet jedoch nicht, dass sie wichtige Informationen enthalten. Es wäre vielmehr sinnvoll, stattdessen die Frage zu stellen: "Wenn der erste PC eine große Zahl ist, wie würde die Verteilung der verbleibenden Eigenwerte aussehen, wenn zufällige Daten für sie verantwortlich wären?"
Gibt es Forschungsergebnisse, die sich mit diesem Problem befassen? Wenn es möglich ist, die Marcenko-Pastur-Verteilung von der Kenntnis eines oder mehrerer Eigenwerte abhängig zu machen, wäre es möglich, iterativ vorzugehen, um zu bestimmen, ob die Faktoren signifikante Informationen widerspiegeln.
Antworten:
Hier ist ein Dokument zu Ihrem Problem: http://math.nyu.edu/faculty/avellane/LalouxPCA.pdf
Die Idee ist einfach: Sie berechnen die Marcenko-Pastur-Verteilung mit einer modifizierten Varianz der Elemente der Matrix. Die modifizierte Varianz entspricht einfach der Varianz, die durch einen anderen Eigenwert als den ersten erklärt wird.
Wie von John gesagt, müssen Sie durch ersetzen für die ersten Eigenwerte. Wenn Sie Ihr Problem normalisiert haben und nur die erste Komponente entfernen möchten, müssen Sie durch ersetzen . Sie erhalten:σ2 (∑ni=1λi−∑Jj=1λj)/n J σ2 1−λ1n
Mit:
Da Ihre Matrix wahrscheinlich mehr Informationen enthält als nur einen großen Eigenwert und Rauschen, werden Sie einen gewissen Unterschied feststellen. Zum Beispiel können wir in Marktkorrelationsstudien einen Verlust der Eigenwerte am oberen Rand des Spektrums beobachten. (Es entspricht den Finanzsektoren).
Ein anderer in diesem Dokument erwähnter Ansatz besteht darin, als einen einzelnen Parameter in der Marcenko-Weideverteilung zu betrachten. Sie müssen diesen Parameter dann an Ihre Kurve anpassen.σ2
Weitere nützliche Techniken und Referenzen finden Sie unter: http://arxiv.org/abs/physics/0507111
quelle