Unter welchen Bedingungen liefern PCA und FA ähnliche Ergebnisse?

Unter welchen Bedingungen kann erwartet werden, dass die Hauptkomponentenanalyse (PCA) und die Faktoranalyse (FA) zu ähnlichen Ergebnissen führen?

pca factor-analysis Statistiken
quelle

Sei die Belastung (nicht die Eigenvektoren) der letzten Hauptkomponenten - derjenigen, die Sie in PCA ablegen ( ist die Anzahl der Variablen und die Anzahl der Komponenten oder Faktoren, die Sie extrahieren möchten). Wenn nahezu diagonal ist, ähneln Ihre PCA-Ergebnisse den FA-Ergebnissen. Einige Fragen, die Sie lesen sollten: stats.stackexchange.com/q/123063/3277 , stats.stackexchange.com/q/94048/3277 .

L

$\bf L$ p-mpm

L L^{'}

$\bf LL'$

ttnphns

Mit anderen Worten: Wenn PCA variablenspezifisches Rauschen so erfolgreich vom Signal (gemeinsame Faktoren) isoliert, wie es die Faktorenanalyse regelmäßig tut. PCA ist im Gegensatz zu FA nicht für diese Aufgabe vorgesehen, scheint es jedoch unter bestimmten Bedingungen häufig zu tun. Einige dieser Bedingungen: 1) pist groß; 2) das Rauschen ist für alle Variablen gering; 3) Rauschen ist für alle Variablen ungefähr gleich.

ttnphns

Dies ist eine ausgezeichnete Frage, aber leider (oder vielleicht zum Glück?) Habe ich erst kürzlich eine sehr lange Antwort in einem verwandten Thread geschrieben , die Ihre Frage fast genau beantwortet. Ich bitte Sie, dort nachzuschauen, ob dies Ihre Frage beantwortet.

Ganz kurz, wenn wir uns nur auf PCA- und FA-Ladungen , besteht der Unterschied darin, dass PCA um die Kovarianzmatrix (oder Korrelationsmatrix) so nah wie möglich zu rekonstruieren : während FA um nur den nicht diagonalen Teil der Kovarianz- (oder Korrelations-) Matrix zu rekonstruieren :Damit meine ich, dass es FA egal ist, welche Werte auf der Diagonale haben, es kümmert sich nur um den nicht diagonalen Teil. $\mathbf W$ $\mathbf W$ $\mathbf C$

C \approx W W^{⊤},

$\mathbf C \approx \mathbf W \mathbf W^\top,$

W

$\mathbf W$

o f f d i a g {C} \approx W W^{⊤} .

$\mathrm{offdiag}\{\mathbf C\} \approx \mathbf W \mathbf W^\top.$

W W^{⊤}

$\mathbf W \mathbf W^\top$

In diesem Sinne ist die Antwort auf Ihre Frage leicht zu erkennen. Wenn die Anzahl von Variablen (Größe von ) groß ist, dann ist der nicht diagonale Teil von fast die gesamte Matrix (Diagonale hat Größe und die gesamte Matrixgröße , also der Beitrag von Die Diagonale beträgt nur ), und daher können wir erwarten, dass sich PCA FA gut annähert. Wenn die Diagonalwerte eher klein sind, spielen sie für PCA wiederum keine große Rolle, und PCA befindet sich in der Nähe von FA, genau wie oben bei @ttnphns angegeben. $n$ $\mathbf C$ $\mathbf C$ $n$ $n^2$ $1/n \to 0$

Wenn andererseits entweder klein ist oder stark von der Diagonale dominiert wird (insbesondere wenn es sehr unterschiedliche Werte auf der Diagonale hat), muss PCA neigen, die Diagonale ebenfalls zu reproduzieren, und wird also ganz anders sein als FA. Ein Beispiel wird in diesem Thread gegeben: $\mathbf C$ $\mathbf W$

Warum liefern PCA und Faktoranalyse in diesem Beispiel unterschiedliche Ergebnisse?

Amöbe
quelle

In Ihrer Antwort geben Sie an, dass "Minimieren von " die Faktoranalyse-Ladungen ergibt. (Ich interpretiere als quadratische Frobenius-Norm.) Wo finde ich einen Beweis für diese Aussage? Für PCA folgt dies aus dem Eckart-Young-Theorem, aber ich kann nicht sehen, wie dies für FA gilt.

| | C - W W^{T} - Ψ | |^{2}

$||C−WW^T−\Psi||^2$

| | ∙ | |^{2}

$||\bullet||^2$

Statistik

In diesem Zusammenhang behauptet ttnphns, dass das Minimieren von dem Minimieren von . Wie kann das gezeigt werden?

| | X - X_{k} | |^{2}

$||X−X_k||^2$

| | X^{T} X - X_{k}^{T} X_{k} | |^{2}

$||X^TX−X_k^TX_k||^2$

Statistik

Auf deine erste Frage. Ja, es ist Frobenius-Norm. Im Gegensatz zu PCA ist FA eher ein Framework als eine genau definierte Methode. Es gibt verschiedene "Methoden der Faktorextraktion", die zu nicht identischen Ergebnissen führen. Natürlich kann es nicht für alle Versionen von FA einen Beweis geben. Eine der ältesten / einfachsten / am weitesten verbreiteten Methoden besteht jedoch darin, und direkt zu finden, indem diese Kostenfunktion minimiert wird ( zufällig initialisieren , über PCA nach auflösen, aktualisieren usw. bis zur Konvergenz). Dies wird als "iterierte Hauptfaktor" -Methode oder so bezeichnet. Dann bleibt nichts mehr zu beweisen :)

W

$W$

Ψ

$\Psi$

Ψ

$\Psi$

W

$W$

Ψ

$\Psi$

Amöbe

Auf deine zweite Frage. Ich bin mir nicht sicher, ob dies im Allgemeinen zutrifft (vielleicht ist es das, vielleicht auch nicht), aber ich verwende es nie in meiner verknüpften Antwort. Schau dir mein "Update 2" genau an, diese Aussage wird nicht benötigt.

Amöbe

Unter welchen Bedingungen liefern PCA und FA ähnliche Ergebnisse?

Antworten: