PCA und explorative Faktorenanalyse für denselben Datensatz: Unterschiede und Ähnlichkeiten; Faktormodell vs PCA

Beide Modelle - Hauptkomponente und gemeinsamer Faktor - sind ähnliche lineare Regressionsmodelle, die beobachtete Variablen durch latente Variablen vorhersagen. Lassen Sie uns die Variablen V1 V2 ... Vp zentrieren und 2 Komponenten / Faktoren FI und FII extrahieren . Dann ist das Modell das Gleichungssystem:

$V_1 = a_{1I}F_I + a_{1II}F_{II} + E_1$

$V_2 = a_{2I}F_I + a_{2II}F_{II} + E_2$

$...$

$V_p = …$

wobei der Koeffizient a eine Belastung ist, F ein Faktor oder eine Komponente ist und die Variable E Regressionsreste sind. Hier unterscheidet sich das FA-Modell vom PCA-Modell genau dadurch, dass FA die Anforderung auferlegt: Variablen E1 E2 ... Ep (die Fehlerterme, die nicht mit dem F s korreliert sind ) müssen korrelieren nicht miteinander korrelieren ( siehe Bilder ). Diese Fehlervariablen FA nennen "eindeutige Faktoren"; ihre Varianzen sind bekannt ("Eindeutigkeiten"), ihre fallweisen Werte jedoch nicht. Daher werden die Faktorwerte F nur als gute Näherungen berechnet, sie sind nicht genau.

(Eine Matrixalgebra-Darstellung dieses Modells zur Analyse gemeinsamer Faktoren befindet sich in Fußnote ) $^1$

Während in PCA die Fehlervariablen aus der Vorhersage verschiedener Variablen frei korrelieren können: Ihnen wird nichts auferlegt. Sie repräsentieren die "Krätze", für die wir die ausgelassenen p-2- Dimensionen verwendet haben. Wir kennen die Werte von E und können daher die Komponentenwerte F als exakte Werte berechnen.

Das war der Unterschied zwischen PCA-Modell und FA-Modell.

Aufgrund des oben beschriebenen Unterschieds ist FA in der Lage, paarweise Korrelationen (Kovarianzen) zu erklären. PCA kann dies im Allgemeinen nicht tun (es sei denn, die Anzahl der extrahierten Komponenten ist = p ); es kann nur die multivariate Varianz erklären . Solange also der Begriff "Faktoranalyse" über das Ziel der Erklärung von Korrelationen definiert wird, gilt PCA $^2$ keine Faktoranalyse. Wenn "Faktoranalyse" breiter definiert ist als eine Methode, die latente "Merkmale" liefert oder vorschlägt, die interpretiert werden könnten, kann PCA als eine spezielle und einfachste Form der Faktoranalyse angesehen werden.

Manchmal - in einigen Datensätzen unter bestimmten Bedingungen - verlässt PCA E Terme, die fast nicht miteinander korrelieren. Dann kann PCA Zusammenhänge erklären und wie FA werden. Bei Datensätzen mit vielen Variablen ist dies nicht ungewöhnlich. Dies veranlasste einige Beobachter zu der Behauptung, dass die PCA-Ergebnisse mit zunehmenden Datenmengen den FA-Ergebnissen nahe kommen. Ich denke nicht, dass es eine Regel ist, aber die Tendenz kann in der Tat sein. Auf jeden Fall ist es aufgrund ihrer theoretischen Unterschiede immer gut, die Methode bewusst auszuwählen. FA ist ein realistischeres Modell, wenn Sie Variablen auf Latente reduzieren möchten, die Sie als echte latente Merkmale betrachten werden, die hinter den Variablen stehen und sie korrelieren lassen.

Wenn Sie jedoch ein anderes Ziel verfolgen: Reduzieren Sie die Dimensionalität, während Sie die Abstände zwischen den Punkten der Datenwolke so weit wie möglich einhalten - PCA ist besser als FA. (Das Verfahren der iterativen mehrdimensionalen Skalierung (MDS) ist jedoch noch besser. PCA entspricht einem nicht- iterativen metrischen MDS.) Wenn Sie sich nicht weiter mit den Entfernungen beschäftigen und nur daran interessiert sind, möglichst viel von der Gesamtvarianz der Daten beizubehalten Möglichst wenig dimensioniert - PCA ist die optimale Wahl.

Faktorenanalyse Datenmodell: , wobei wirdDaten analysiert (Spalten zentriert oder standardisiert), istgemeinsamen Faktor Werte (die unbekannten tatsächlichen diejenigen, nicht Faktorwerte) mit Einheit Varianz, istMatrix gemeinsamer Faktorladungen (Mustermatrix), isteindeutige Faktorwerte (unbekannt), ist derVektor der eindeutigen Faktorladungen gleich der Quadratwurzel der Eindeutigkeiten ( ). Portion $^1$ $\mathbf {V=FA'+E}diag \bf(u)$ $\bf V$ n cases x p variables $\bf F$ n x m $\bf A$ p x m $\bf E$ n x p $\bf u$ p $\bf u^2$ Einfachheit halberE" bezeichnet werden, wie es in den Formeln steht, die die Antwort eröffnen. könnte einfach als " $\mathbf E diag \bf(u)$

Hauptannahmen des Modells:

und Variablen (gemeinsame bzw. eindeutige Faktoren) haben Mittelwerte und Einheitsvarianzen von Null. wird normalerweise als multivariate Norm angenommen, aber im Allgemeinen keine multivariate Norm sein (wenn beide als multivariate Norm angenommen werden, dann gilt $\bf F$ $\bf E$ $\bf E$ $\bf F$ $\bf V$ werden, gilt dies auch für ).
Variablen sind nicht miteinander korreliert und nicht mit Variablenkorreliert. $\bf E$ $\bf F$

Aus demModell derAnalysegemeinsamer Faktorenfolgt,dass Ladungen vonmgemeinsamen Faktoren (m<pVariablen), die auch als , die beobachteten Kovarianzen (oder Korrelationen) zwischen den Variablen genau wiedergeben sollten, . So dasswenn Faktoren orthogonal sind, der grundlegendeFaktor Satzbesagtdass $^2$ $\bf A$ $\bf A_{(m)}$ $\bf \Sigma$

und, $\bf \hat{\Sigma} = AA'$ $\bf \Sigma \approx \hat{\Sigma} + \it diag \bf (u^2)$

wobei die Matrix der Kovarianzen reproduziert (oder Korrelationen) mit gemeinsamen Varianzen ( „Kommunalitäten“) auf ihren Diagonalen; und eindeutige Varianzen ("Eindeutigkeiten") - die Varianzen minus Gemeinsamkeiten sind - sind der Vektor . Die Abweichung von der Diagonale ( Faktoren, die nicht zu den üblichen Faktoren gehören) ist ausgeprägt. (3) Gemeinden nicht gut beurteilt, ihre Anfangswerte waren schlecht gewesen; (4) Beziehungen sind nicht linear, die Verwendung eines linearen Modells ist fraglich; (5) Das mit der Extraktionsmethode erzeugte Modell "Subtyp" ist für die Daten nicht optimal (siehe Informationen zu verschiedenen Extraktionsmethoden ). Mit anderen Worten, einige FA-Datenannahmen werden nicht vollständig erfüllt. $\bf \hat{\Sigma}$ $\bf u^2$ $\approx$ ) ist darauf zurückzuführen, dass es sich bei den Faktoren um ein theoretisches Modell handelt, das Daten generiert, und als solches ist es einfacher als die beobachteten Daten, auf denen es aufgebaut wurde. Die Hauptursachen für die Diskrepanz zwischen den beobachteten und den reproduzierten Kovarianzen (oder Korrelationen) können sein: (1) Anzahl der Faktoren m ist statistisch nicht optimal; (2) Teilkorrelationen (das sindp(p-1)/2

Wie bei normalem PCA werden Kovarianzen durch die Ladungen genau dann reproduziert, wenn m = p (alle Komponenten werden verwendet), und dies schlägt normalerweise fehl, wenn m < p (nur wenige erste Komponenten verbleiben). Der Faktorsatz für PCA lautet:

, $\bf \Sigma= AA'_{(p)} = AA'_{(m)} + AA'_{(p-m)}$

Daher sind sowohl -Ladungen als auch abgelegte -Ladungen eine Mischung aus Gemeinsamkeiten und Eindeutigkeiten, und beide können nicht einzeln zur Wiederherstellung von Kovarianzen beitragen. Je näher m an p ist , desto besser stellt PCA in der Regel Kovarianzen wieder her, aber kleines m (was oft von unserem Interesse ist) hilft nicht. Dies unterscheidet sich von FA, das ist beabsichtigt Kovarianzen mit recht klein optimale Anzahl von Faktoren wiederherzustellen. Nähert sich Diagonale, so wird PCA wie FA mit $\bf A_{(m)}$ $\bf A_{(p-m)}$ $\bf AA'_{(p-m)}$ Wiederherstellung aller Kovarianzen. Es passiert gelegentlich mit PCA, wie ich bereits erwähnt habe. Der PCA fehlt jedoch die algorithmische Fähigkeit, eine solche Diagonalisierung zu erzwingen. Es sind FA-Algorithmen, die dies tun. $\bf A_{(m)}$

FA, nicht PCA, ist ein datengenerierendes Modell: Es geht von wenigen "echten" allgemeinen Faktoren aus (von normalerweise unbekannter Zahl, also probieren Sie m innerhalb eines Bereichs aus), die "wahre" Werte für Kovarianzen generieren. Beobachtete Kovarianzen sind die "wahren" + kleines zufälliges Rauschen. (Aufgrund der durchgeführten Diagonalisierung, die als einzige Wiederherstellung aller Kovarianzen zurückließ, kann das oben genannte Rauschen klein und zufällig sein.) Der Versuch, mehr Faktoren als die optimalen Beträge für einen Überpassungsversuch und nicht unbedingt einen effizienten Überpassungsversuch anzupassen . $\bf A_{(m)}$

$trace(\bf A'A_{(m)})$

$\bf \Sigma$ $\bf AA'$ $trace(\bf AA')$ $trace(\bf A'A)$ $\bf A'A$

Dank der Spur zu maximieren - die Varianz erklärt von m Komponenten - PCA wird für Kovarianzen Bilanzierung, da Kovarianz Varianz geteilt wird. In diesem Sinne ist PCA eine "niedrigrangige Approximation" der gesamten Kovarianzmatrix von Variablen. Und vom Standpunkt der Beobachtungen aus gesehen ist diese Näherung die Näherung der Euklidischen-Distanz-Matrix der Beobachtungen (weshalb PCA als metrische MDS bezeichnet wird). Diese Tatsache sollte uns nicht vor der Realität abschirmen, die PCA nicht modelliert Kovarianzmatrix (jede Kovarianz), die von wenigen lebenden latenten Merkmalen erzeugt wird, die für unsere Variablen als transzendent vorstellbar sind, die PCA-Approximation bleibt immanent, auch wenn sie gut ist: Sie ist eine Vereinfachung der Daten.

Wenn Sie Schritt-für-Schritt-Berechnungen in PCA und FA sehen möchten, die kommentiert und verglichen werden sollen, klicken Sie hier .

ttnphns
quelle

Das ist eine hervorragende Antwort.

Subhash C. Davar

+1 für eine neue Perspektive beim Betrachten von PCA. Soweit ich es verstanden habe, können sowohl PCA als auch FA die Varianz der beobachteten Variablen erklären, und da FA vorschreibt, dass die Fehlerterme für jede Variable nicht korreliert werden sollten, macht PCA kein solches Diktat, sodass FA die gesamte Kovarianz in erfassen kann die beobachteten Variablen, aber PCA tut dies nicht, weil in PCA die Fehlerausdrücke möglicherweise auch eine gewisse Kovarianz der beobachteten Variablen enthalten, es sei denn, wir verwenden den gesamten PC, um die beobachteten Variablen darzustellen, richtig?

Avocado

Genau. PCA kann einen Kovarianzwert nicht nur unterschätzen (wie Sie vielleicht denken), sondern auch überschätzen. Kurz gesagt, a1 * a2 <> Cov12, was für PCA normal ist . Für FA wäre dies ein Zeichen für eine suboptimale Lösung (z. B. falsche Anzahl extrahierter Faktoren).

TTNPHNS

@ttnphns: +1, aber ich bin ziemlich verwirrt. Ich kenne PCA ziemlich gut, weiß aber sehr wenig über FA. Mein Verständnis war, dass in PCA die Kovarianzmatrix als zerlegt wird

Σ = W W^{⊤} + σ^{2} I

$\Sigma = WW^\top+\sigma^2 I$

Σ = W W^{⊤} + Ψ

$\Sigma = WW^\top+\Psi$

Ψ

$\Psi$

Amöbe sagt Reinstate Monica

Σ

$\Sigma$

W W^{'}

$WW'$

W

$W$

Ψ

$\Psi$

σ^{2}

$\sigma^2$

Ich habe im folgenden Thread meine eigene Darstellung der Ähnlichkeiten und Unterschiede zwischen PCA und FA gegeben: Gibt es einen guten Grund, PCA anstelle von EFA zu verwenden? Kann PCA auch ein Ersatz für die Faktoranalyse sein?

Beachten Sie, dass sich mein Konto etwas von dem von @ttnphns unterscheidet (wie in seiner Antwort oben dargestellt). Mein Hauptanspruch ist, dass PCA und FA nicht so unterschiedlich sind, wie oft angenommen wird. Sie können sich in der Tat stark unterscheiden, wenn die Anzahl der Variablen sehr gering ist, ergeben jedoch tendenziell recht ähnliche Ergebnisse, wenn die Anzahl der Variablen über einem Dutzend liegt. Siehe meine [lange!] Antwort im verlinkten Thread für mathematische Details und Monte-Carlo-Simulationen. Eine viel präzisere Version meines Arguments finden Sie hier: Unter welchen Bedingungen liefern PCA und FA ähnliche Ergebnisse?

Hier möchte ich Ihre Hauptfrage ausdrücklich beantworten: Stimmt etwas nicht, wenn PCA und FA mit demselben Datensatz durchgeführt werden? Meine Antwort darauf lautet: Nein.

Wenn Sie PCA oder FA ausführen, testen Sie keine Hypothese. Bei beiden handelt es sich um Erkundungstechniken , die zum besseren Verständnis der Daten verwendet werden. Warum also nicht die Daten mit zwei verschiedenen Tools untersuchen? In der Tat, lass es uns tun!

Beispiel: Weindatensatz

Zur Veranschaulichung habe ich einen ziemlich bekannten Wein-Datensatz mit verwendet $n=178$ $p=13$

PCA and FA analysis of the wine dataset

Amöbe sagt Reinstate Monica
quelle

If the results turn out to be very similar, then you can decide to stick with only one approach. Sicher. Wie ähnlich ist es dann? If the results turn out to be very different, then maybe it tells you something about your dataDas ist absolut mystisch und esoterisch.

ttnphns

Hmmm, sorry wenn es unklar war. Was ich damit gemeint habe ist, dass wenn es viele Variablen gibt und PCA sehr unterschiedliche Ladungen von FA liefert, es uns etwas sagt. Möglicherweise sind die Gemeinsamkeiten sehr gering (dh die Korrelationsmatrix wird von der Diagonale dominiert, und außerdiagonale Elemente sind klein). Dies kann eine interessante Beobachtung sein. Wenn ich aus irgendeinem Grund denselben Datensatz mit PCA und FA analysiere und sehr unterschiedliche Ergebnisse erhalte, würde ich ihn weiter untersuchen. Macht das Sinn?

Amöbe sagt Reinstate Monica

@ttnphns: Ich habe ein Update mit einem ausgearbeiteten Beispiel für einen bestimmten Datensatz durchgeführt. Ich hoffe du wirst es genießen! Siehe auch meine verlinkte (neue) Antwort. Es ist das erste Mal, dass ich einen FA-Biplot mache, und unsere früheren Gespräche haben mir dabei sehr geholfen.

Amöbe sagt Reinstate Monica

PCA und explorative Faktorenanalyse für denselben Datensatz: Unterschiede und Ähnlichkeiten; Faktormodell vs PCA

Antworten:

Beispiel: Weindatensatz