Ich möchte das Akaike Information Criterion (AIC) verwenden, um die entsprechende Anzahl von Faktoren auszuwählen, die in einem PCA extrahiert werden sollen. Das einzige Problem ist, dass ich nicht sicher bin, wie ich die Anzahl der Parameter bestimmen soll.
Man betrachte eine Matrix , wobei die Anzahl der Variablen und die Anzahl der Beobachtungen darstellt, so dass . Da die Kovarianzmatrix symmetrisch ist, könnte eine maximale Wahrscheinlichkeitsschätzung von die Anzahl der Parameter in der AIC auf . ≤ N ( N + 1 )
Alternativ können Sie in einer PCA die ersten Eigenvektoren und Eigenwerte von extrahieren , sie und und dann berechnen. wobei die durchschnittliche Restvarianz ist. Nach meiner Zählung, wenn Sie f Faktoren haben, würden Sie f Parameter in \ Lambda_ {f} , Nf Parameter in \ beta_ {f} und 1 Parameter in \ sigma_ {r} ^ {2} .Σ β f Λ f Σ = β f Λ f β ' f + I σ 2 r σ 2 R f f Λ f N f β f 1 σ 2 R
Ist dieser Ansatz richtig? Es scheint, als würde dies zu mehr Parametern als dem Maximum-Likelihood-Ansatz führen, wenn die Anzahl der Faktoren auf ansteigt .
quelle
Antworten:
Die Arbeiten von Minka ( Automatische Wahl der Dimensionalität für PCA , 2000) und von Tipping & Bishop ( Probabilistische Hauptkomponentenanalyse ) in Bezug auf eine probabilistische Sicht auf PCA könnten Ihnen den Rahmen bieten, an dem Sie interessiert sind. Wahrscheinlichkeit wobei k die latente Dimensionalität Ihres Datensatzes D unter Verwendung einer Laplace-Näherung ist; wie explizit angegeben: "Eine Vereinfachung der Laplace-Methode ist die BIC-Approximation."logp(D|k) k D
Dies ist eindeutig eine Bayes'sche Sichtweise Ihres Problems, die nicht auf den von AIC verwendeten informationstheoretischen Kriterien (KL-Divergenz) basiert.
Bezüglich der ursprünglichen Frage "Bestimmung der Parameternummer" denke ich auch, dass @ whubers Kommentar die richtige Intuition enthält.
quelle
Die Auswahl einer "geeigneten" Anzahl von Komponenten in PCA kann elegant mit Horn's Parallel Analysis (PA) durchgeführt werden. Aufsätze zeigen, dass dieses Kriterium Faustregeln wie das Ellbogen-Kriterium oder die Kaiser-Regel durchweg übertrifft. Das R-Paket "paran" enthält eine PA-Implementierung, die nur ein paar Mausklicks erfordert.
Wie viele Komponenten Sie behalten, hängt natürlich von den Zielen der Datenreduktion ab. Wenn Sie nur eine Varianz beibehalten möchten, die "sinnvoll" ist, wird PA eine optimale Reduzierung bieten. Wenn Sie den Informationsverlust der Originaldaten minimieren möchten, sollten Sie jedoch genügend Komponenten aufbewahren, um 95% der erklärten Varianz abzudecken. Dadurch bleiben offensichtlich viel mehr Komponenten als bei PA erhalten, obwohl bei hochdimensionalen Datensätzen die Reduzierung der Dimensionalität immer noch erheblich sein wird.
Ein letzter Hinweis zu PCA als "Modellauswahl" -Problem. Ich bin mit Peters Antwort nicht ganz einverstanden. Es gab eine Reihe von Veröffentlichungen, in denen PCA als regressionsbedingtes Problem umformuliert wurde, z. B. Sparse PCA, Sparse Probabilistic PCA oder ScotLASS. In diesen "modellbasierten" PCA-Lösungen sind Ladungen Parameter, die mit geeigneten Strafen auf 0 gesetzt werden können. Vermutlich wäre es in diesem Zusammenhang auch möglich, AIC- oder BIC-Typ-Statistiken für das betrachtete Modell zu berechnen.
Dieser Ansatz könnte theoretisch ein Modell umfassen, bei dem beispielsweise zwei PCs uneingeschränkt sind (alle Ladevorgänge ungleich Null), gegenüber einem Modell, bei dem PC1 uneingeschränkt ist und bei dem PC2 alle Ladevorgänge auf 0 gesetzt sind. Dies wäre gleichbedeutend mit der Schlussfolgerung, ob PC2 redundant ist im Großen und Ganzen.
Referenzen (PA) :
quelle
AIC ist für die Modellauswahl ausgelegt. Dies ist kein wirkliches Modellauswahlproblem, und vielleicht ist es besser, wenn Sie einen anderen Ansatz wählen. Eine Alternative könnte darin bestehen, einen bestimmten Prozentsatz der erklärten Abweichung anzugeben (z. B. 75%) und zu stoppen, wenn der Prozentsatz 75% erreicht, falls dies jemals der Fall ist.
quelle
AIC ist hier nicht angebracht. Sie wählen nicht zwischen Modellen mit einer unterschiedlichen Anzahl von Parametern aus - eine Hauptkomponente ist kein Parameter.
Es gibt eine Reihe von Methoden, um die Anzahl der Faktoren oder Komponenten aus einer Faktorenanalyse oder Hauptkomponentenanalyse zu bestimmen - Gerölltest, Eigenwert> 1 usw. Der eigentliche Test ist jedoch von wesentlicher Bedeutung: Welche Anzahl von Faktoren ist sinnvoll ? Betrachten Sie die Faktoren, berücksichtigen Sie die Gewichte und finden Sie heraus, welche für Ihre Daten am besten geeignet sind.
Wie andere Dinge in der Statistik ist dies nicht einfach zu automatisieren.
quelle