Ich würde gerne wissen, ob es logisch sinnvoll ist, eine Hauptkomponentenanalyse (PCA) und eine explorative Faktoranalyse (EFA) mit demselben Datensatz durchzuführen. Ich habe gehört, Profis empfehlen ausdrücklich:
- Verstehen Sie, was das Ziel der Analyse ist, und wählen Sie PCA oder EFA für die Datenanalyse.
- Nachdem Sie eine Analyse durchgeführt haben, müssen Sie die andere nicht mehr durchführen.
Ich verstehe die Motivationsunterschiede zwischen den beiden, habe mich aber nur gefragt, ob die gleichzeitige Interpretation der Ergebnisse von PCA und EFA nicht in Ordnung ist.
pca
factor-analysis
user42538
quelle
quelle
Antworten:
Beide Modelle - Hauptkomponente und gemeinsamer Faktor - sind ähnliche lineare Regressionsmodelle, die beobachtete Variablen durch latente Variablen vorhersagen. Lassen Sie uns die Variablen V1 V2 ... Vp zentrieren und 2 Komponenten / Faktoren FI und FII extrahieren . Dann ist das Modell das Gleichungssystem:
wobei der Koeffizient a eine Belastung ist, F ein Faktor oder eine Komponente ist und die Variable E Regressionsreste sind. Hier unterscheidet sich das FA-Modell vom PCA-Modell genau dadurch, dass FA die Anforderung auferlegt: Variablen E1 E2 ... Ep (die Fehlerterme, die nicht mit dem F s korreliert sind ) müssen korrelieren nicht miteinander korrelieren ( siehe Bilder ). Diese Fehlervariablen FA nennen "eindeutige Faktoren"; ihre Varianzen sind bekannt ("Eindeutigkeiten"), ihre fallweisen Werte jedoch nicht. Daher werden die Faktorwerte F nur als gute Näherungen berechnet, sie sind nicht genau.
(Eine Matrixalgebra-Darstellung dieses Modells zur Analyse gemeinsamer Faktoren befindet sich in Fußnote 1. )1
Während in PCA die Fehlervariablen aus der Vorhersage verschiedener Variablen frei korrelieren können: Ihnen wird nichts auferlegt. Sie repräsentieren die "Krätze", für die wir die ausgelassenen p-2- Dimensionen verwendet haben. Wir kennen die Werte von E und können daher die Komponentenwerte F als exakte Werte berechnen.
Das war der Unterschied zwischen PCA-Modell und FA-Modell.
Aufgrund des oben beschriebenen Unterschieds ist FA in der Lage, paarweise Korrelationen (Kovarianzen) zu erklären. PCA kann dies im Allgemeinen nicht tun (es sei denn, die Anzahl der extrahierten Komponenten ist = p ); es kann nur die multivariate Varianz 2 erklären . Solange also der Begriff "Faktoranalyse" über das Ziel der Erklärung von Korrelationen definiert wird, gilt PCA2 keine Faktoranalyse. Wenn "Faktoranalyse" breiter definiert ist als eine Methode, die latente "Merkmale" liefert oder vorschlägt, die interpretiert werden könnten, kann PCA als eine spezielle und einfachste Form der Faktoranalyse angesehen werden.
Manchmal - in einigen Datensätzen unter bestimmten Bedingungen - verlässt PCA E Terme, die fast nicht miteinander korrelieren. Dann kann PCA Zusammenhänge erklären und wie FA werden. Bei Datensätzen mit vielen Variablen ist dies nicht ungewöhnlich. Dies veranlasste einige Beobachter zu der Behauptung, dass die PCA-Ergebnisse mit zunehmenden Datenmengen den FA-Ergebnissen nahe kommen. Ich denke nicht, dass es eine Regel ist, aber die Tendenz kann in der Tat sein. Auf jeden Fall ist es aufgrund ihrer theoretischen Unterschiede immer gut, die Methode bewusst auszuwählen. FA ist ein realistischeres Modell, wenn Sie Variablen auf Latente reduzieren möchten, die Sie als echte latente Merkmale betrachten werden, die hinter den Variablen stehen und sie korrelieren lassen.
Wenn Sie jedoch ein anderes Ziel verfolgen: Reduzieren Sie die Dimensionalität, während Sie die Abstände zwischen den Punkten der Datenwolke so weit wie möglich einhalten - PCA ist besser als FA. (Das Verfahren der iterativen mehrdimensionalen Skalierung (MDS) ist jedoch noch besser. PCA entspricht einem nicht- iterativen metrischen MDS.) Wenn Sie sich nicht weiter mit den Entfernungen beschäftigen und nur daran interessiert sind, möglichst viel von der Gesamtvarianz der Daten beizubehalten Möglichst wenig dimensioniert - PCA ist die optimale Wahl.
Faktorenanalyse Datenmodell: V = F A ' + E d i eine g ( u ) , wobei V wirdDaten analysiert (Spalten zentriert oder standardisiert), F istgemeinsamen Faktor Werte (die unbekannten tatsächlichen diejenigen, nicht Faktorwerte) mit Einheit Varianz, A istMatrix gemeinsamer Faktorladungen (Mustermatrix), E isteindeutige Faktorwerte (unbekannt), u ist derVektor der eindeutigen Faktorladungen gleich der Quadratwurzel der Eindeutigkeiten ( u 2 ). Portion1 V=FA′+Ediag(u) V F A E u u2 Einfachheit halberE" bezeichnet werden, wie es in den Formeln steht, die die Antwort eröffnen. könnte einfach als "Ediag(u)
n cases x p variables
n x m
p x m
n x p
p
Hauptannahmen des Modells:
Aus demModell derAnalysegemeinsamer Faktorenfolgt,dass Ladungen A vonmgemeinsamen Faktoren (m<pVariablen), die auch als A ( m ) bezeichnet werden , die beobachteten Kovarianzen (oder Korrelationen) zwischen den Variablen genau wiedergeben sollten, Σ . So dasswenn Faktoren orthogonal sind, der grundlegendeFaktor Satzbesagtdass2 A A(m) Σ
undΣ≈ Σ +diag(U2),Σ^=AA′ Σ≈Σ^+diag(u2)
wobei Σ die Matrix der Kovarianzen reproduziert (oder Korrelationen) mit gemeinsamen Varianzen ( „Kommunalitäten“) auf ihren Diagonalen; und eindeutige Varianzen ("Eindeutigkeiten") - die Varianzen minus Gemeinsamkeiten sind - sind der Vektor u 2 . Die Abweichung von der Diagonale ( ≈ Faktoren, die nicht zu den üblichen Faktoren gehören) ist ausgeprägt. (3) Gemeinden nicht gut beurteilt, ihre Anfangswerte waren schlecht gewesen; (4) Beziehungen sind nicht linear, die Verwendung eines linearen Modells ist fraglich; (5) Das mit der Extraktionsmethode erzeugte Modell "Subtyp" ist für die Daten nicht optimal (siehe Informationen zu verschiedenen Extraktionsmethoden ). Mit anderen Worten, einige FA-Datenannahmen werden nicht vollständig erfüllt.Σ^ u2 ≈ ) ist darauf zurückzuführen, dass es sich bei den Faktoren um ein theoretisches Modell handelt, das Daten generiert, und als solches ist es einfacher als die beobachteten Daten, auf denen es aufgebaut wurde. Die Hauptursachen für die Diskrepanz zwischen den beobachteten und den reproduzierten Kovarianzen (oder Korrelationen) können sein: (1) Anzahl der Faktoren m ist statistisch nicht optimal; (2) Teilkorrelationen (das sind
p(p-1)/2
Wie bei normalem PCA werden Kovarianzen durch die Ladungen genau dann reproduziert, wenn m = p (alle Komponenten werden verwendet), und dies schlägt normalerweise fehl, wenn m < p (nur wenige erste Komponenten verbleiben). Der Faktorsatz für PCA lautet:
,Σ=AA′(p)=AA′(m)+AA′(p−m)
Daher sind sowohl -Ladungen als auch abgelegte A ( p - m ) -Ladungen eine Mischung aus Gemeinsamkeiten und Eindeutigkeiten, und beide können nicht einzeln zur Wiederherstellung von Kovarianzen beitragen. Je näher m an p ist , desto besser stellt PCA in der Regel Kovarianzen wieder her, aber kleines m (was oft von unserem Interesse ist) hilft nicht. Dies unterscheidet sich von FA, das ist beabsichtigt Kovarianzen mit recht klein optimale Anzahl von Faktoren wiederherzustellen. Nähert sich A A ' ( p - m ) der Diagonale, so wird PCA wie FA mit AA(m) A(p−m) AA′(p−m) Wiederherstellung aller Kovarianzen. Es passiert gelegentlich mit PCA, wie ich bereits erwähnt habe. Der PCA fehlt jedoch die algorithmische Fähigkeit, eine solche Diagonalisierung zu erzwingen. Es sind FA-Algorithmen, die dies tun.A(m)
FA, nicht PCA, ist ein datengenerierendes Modell: Es geht von wenigen "echten" allgemeinen Faktoren aus (von normalerweise unbekannter Zahl, also probieren Sie m innerhalb eines Bereichs aus), die "wahre" Werte für Kovarianzen generieren. Beobachtete Kovarianzen sind die "wahren" + kleines zufälliges Rauschen. (Aufgrund der durchgeführten Diagonalisierung, die als einzige Wiederherstellung aller Kovarianzen zurückließ, kann das oben genannte Rauschen klein und zufällig sein.) Der Versuch, mehr Faktoren als die optimalen Beträge für einen Überpassungsversuch und nicht unbedingt einen effizienten Überpassungsversuch anzupassen .A(m)
Dank der Spur zu maximieren - die Varianz erklärt von m Komponenten - PCA wird für Kovarianzen Bilanzierung, da Kovarianz Varianz geteilt wird. In diesem Sinne ist PCA eine "niedrigrangige Approximation" der gesamten Kovarianzmatrix von Variablen. Und vom Standpunkt der Beobachtungen aus gesehen ist diese Näherung die Näherung der Euklidischen-Distanz-Matrix der Beobachtungen (weshalb PCA als metrische MDS bezeichnet wird). Diese Tatsache sollte uns nicht vor der Realität abschirmen, die PCA nicht modelliert Kovarianzmatrix (jede Kovarianz), die von wenigen lebenden latenten Merkmalen erzeugt wird, die für unsere Variablen als transzendent vorstellbar sind, die PCA-Approximation bleibt immanent, auch wenn sie gut ist: Sie ist eine Vereinfachung der Daten.
Wenn Sie Schritt-für-Schritt-Berechnungen in PCA und FA sehen möchten, die kommentiert und verglichen werden sollen, klicken Sie hier .
quelle
Ich habe im folgenden Thread meine eigene Darstellung der Ähnlichkeiten und Unterschiede zwischen PCA und FA gegeben: Gibt es einen guten Grund, PCA anstelle von EFA zu verwenden? Kann PCA auch ein Ersatz für die Faktoranalyse sein?
Beachten Sie, dass sich mein Konto etwas von dem von @ttnphns unterscheidet (wie in seiner Antwort oben dargestellt). Mein Hauptanspruch ist, dass PCA und FA nicht so unterschiedlich sind, wie oft angenommen wird. Sie können sich in der Tat stark unterscheiden, wenn die Anzahl der Variablen sehr gering ist, ergeben jedoch tendenziell recht ähnliche Ergebnisse, wenn die Anzahl der Variablen über einem Dutzend liegt. Siehe meine [lange!] Antwort im verlinkten Thread für mathematische Details und Monte-Carlo-Simulationen. Eine viel präzisere Version meines Arguments finden Sie hier: Unter welchen Bedingungen liefern PCA und FA ähnliche Ergebnisse?
Hier möchte ich Ihre Hauptfrage ausdrücklich beantworten: Stimmt etwas nicht, wenn PCA und FA mit demselben Datensatz durchgeführt werden? Meine Antwort darauf lautet: Nein.
Wenn Sie PCA oder FA ausführen, testen Sie keine Hypothese. Bei beiden handelt es sich um Erkundungstechniken , die zum besseren Verständnis der Daten verwendet werden. Warum also nicht die Daten mit zwei verschiedenen Tools untersuchen? In der Tat, lass es uns tun!
Beispiel: Weindatensatz
Zur Veranschaulichung habe ich einen ziemlich bekannten Wein-Datensatz mit verwendetn=178 p=13
quelle
If the results turn out to be very similar, then you can decide to stick with only one approach
. Sicher. Wie ähnlich ist es dann?If the results turn out to be very different, then maybe it tells you something about your data
Das ist absolut mystisch und esoterisch.