Es scheint, dass einige der statistischen Pakete, die ich verwende, diese beiden Konzepte zusammenfassen. Ich frage mich jedoch, ob es unterschiedliche Annahmen oder Datenformalitäten gibt, die zutreffen müssen, um übereinander verwendet zu werden. Ein echtes Beispiel wäre unglaublich nützlich.
pca
factor-analysis
Brandon Bertelsen
quelle
quelle
Antworten:
Die Hauptkomponentenanalyse umfasst das Extrahieren linearer Zusammensetzungen beobachteter Variablen.
Die Faktorenanalyse basiert auf einem formalen Modell, das beobachtete Variablen aus theoretischen latenten Faktoren vorhersagt.
In der Psychologie werden diese beiden Techniken häufig bei der Konstruktion von Tests mit mehreren Maßstäben angewendet, um zu bestimmen, welche Gegenstände auf welche Maßstäbe geladen werden. Sie liefern typischerweise ähnliche inhaltliche Schlussfolgerungen (für eine Diskussion siehe Comrey (1988) Factor-Analytic Methods of Scale Development in Personality and Clinical Psychology). Dies hilft zu erklären, warum einige Statistikpakete sie zu bündeln scheinen. Ich habe auch Situationen gesehen, in denen "Hauptkomponentenanalyse" fälschlicherweise als "Faktoranalyse" bezeichnet wird.
In Bezug auf eine einfache Faustregel würde ich vorschlagen, dass Sie:
Führen Sie eine Faktorenanalyse durch, wenn Sie ein theoretisches Modell latenter Faktoren, die beobachtete Variablen verursachen, annehmen oder testen möchten.
Hauptkomponentenanalyse ausführen Wenn Sie Ihre korrelierten beobachteten Variablen einfach auf einen kleineren Satz wichtiger unabhängiger zusammengesetzter Variablen reduzieren möchten.
quelle
Aus meiner Antwort hier:
Befindet sich nach der PCA noch eine Rotation (z. B. Varimax)?
Die Hauptkomponentenanalyse (PCA) und die Common Factor Analysis (CFA) sind unterschiedliche Methoden. Häufig führen sie zu ähnlichen Ergebnissen, und PCA wird als Standardextraktionsmethode in den SPSS-Faktoranalyse-Routinen verwendet. Dies führt zweifellos zu einer Menge Verwirrung über die Unterscheidung zwischen den beiden.
Das Fazit ist, dass es sich konzeptionell um zwei verschiedene Modelle handelt. In PCA sind die Komponenten tatsächliche orthogonale Linearkombinationen, die die Gesamtvarianz maximieren. In FA sind die Faktoren Linearkombinationen, die den gemeinsamen Teil der Varianz maximieren - zugrunde liegende "latente Konstrukte". Deshalb wird FA oft als "Common Factor Analysis" bezeichnet. FA verwendet eine Vielzahl von Optimierungsroutinen und das Ergebnis hängt im Gegensatz zu PCA von der verwendeten Optimierungsroutine und den Startpunkten für diese Routinen ab. Es gibt einfach keine einzige Lösung.
In R bietet die factanal () -Funktion CFA eine maximale Wahrscheinlichkeitsextraktion. Sie sollten also nicht erwarten, dass es ein SPSS-Ergebnis reproduziert, das auf einer PCA-Extraktion basiert. Es ist einfach nicht dasselbe Modell oder dieselbe Logik. Ich bin mir nicht sicher, ob Sie dasselbe Ergebnis erzielen würden, wenn Sie die SPSS-Maximum-Likelihood-Extraktion verwenden, da diese möglicherweise nicht denselben Algorithmus verwenden.
In R können Sie jedoch die vertauschte "Faktoranalyse" reproduzieren, die SPSS standardmäßig bereitstellt. Hier ist der Prozess in R. Mit diesem Code kann ich das Ergebnis der SPSS-Hauptkomponente "Faktoranalyse" mithilfe dieses Datensatzes reproduzieren. (Mit Ausnahme des unbestimmten Zeichens). Dieses Ergebnis könnte dann auch mit einer der verfügbaren Rotationsmethoden von R gedreht werden.
quelle
principal(attitude, 2, rotate="none")
dempsych
Paket die gleichen Ergebnisse erzielen und dass die Kayser-Regel (ev> 1) nicht die am meisten empfohlene Methode zum Testen der Dimensionalität ist (sie überschätzt die Anzahl der Faktoren).factanal()
bietet EFA nicht CFA. Aus meiner Erfahrung sollte die SPSS-Maximum-Likelihood-Extraktion das gleiche Ergebnis liefernfactanal()
, da keine schräge Rotation vorliegt.Sie haben Recht mit Ihrem ersten Punkt, obwohl Sie in FA im Allgemeinen mit beidem arbeiten (Einzigartigkeit und Gemeinsamkeit). Die Wahl zwischen PCA und FA ist eine langjährige Debatte unter Psychometrikern. Ich folge jedoch nicht ganz Ihren Punkten. Die Drehung der Hauptachsen kann angewendet werden, unabhängig davon, mit welcher Methode latente Faktoren konstruiert werden. Tatsächlich wird meistens die VARIMAX-Rotation (orthogonale Rotation unter Berücksichtigung unkorrelierter Faktoren) aus praktischen Gründen (einfachste Interpretation, einfachste Bewertungsregeln oder Interpretation von Faktorwerten usw.) verwendet, obwohl die Rotation schief verläuft (z. B. PROMAX) ) könnte wahrscheinlich besser die Realität widerspiegeln (latente Konstrukte sind oft miteinander korreliert), Zumindest in der Tradition von FA, in der Sie davon ausgehen, dass ein latentes Konstrukt tatsächlich im Mittelpunkt der beobachteten Wechselbeziehungen zwischen Ihren Variablen steht. Der Punkt ist, dass PCA, gefolgt von VARIMAX-Rotation, die Interpretation der linearen Kombinationen der ursprünglichen Variablen in der Tradition der "Datenanalyse" etwas verzerrt (siehe die Arbeit von Michel Tenenhaus). Aus psychometrischer Sicht sind FA-Modelle vorzuziehen, da sie explizit Messfehler berücksichtigen, während sich PCA nicht darum kümmert. Kurz gesagt, mit PCA drücken Sie jede Komponente (Faktor) als Linearkombination der Variablen aus, während dies in FA die Variablen sind, die als Linearkombination der Faktoren ausgedrückt werden (einschließlich der Komponenten für Gemeinsamkeiten und Eindeutigkeiten, wie Sie sagten). Der Punkt ist, dass PCA, gefolgt von VARIMAX-Rotation, die Interpretation der linearen Kombinationen der ursprünglichen Variablen in der Tradition der "Datenanalyse" etwas verzerrt (siehe die Arbeit von Michel Tenenhaus). Aus psychometrischer Sicht sind FA-Modelle vorzuziehen, da sie explizit Messfehler berücksichtigen, während sich PCA nicht darum kümmert. Kurz gesagt, mit PCA drücken Sie jede Komponente (Faktor) als Linearkombination der Variablen aus, während dies in FA die Variablen sind, die als Linearkombination der Faktoren ausgedrückt werden (einschließlich der Komponenten für Gemeinsamkeiten und Eindeutigkeiten, wie Sie sagten). Der Punkt ist, dass PCA, gefolgt von VARIMAX-Rotation, die Interpretation der linearen Kombinationen der ursprünglichen Variablen in der Tradition der "Datenanalyse" etwas verzerrt (siehe die Arbeit von Michel Tenenhaus). Aus psychometrischer Sicht sind FA-Modelle vorzuziehen, da sie explizit Messfehler berücksichtigen, während sich PCA nicht darum kümmert. Kurz gesagt, mit PCA drücken Sie jede Komponente (Faktor) als Linearkombination der Variablen aus, während dies in FA die Variablen sind, die als Linearkombination der Faktoren ausgedrückt werden (einschließlich der Komponenten für Gemeinsamkeiten und Eindeutigkeiten, wie Sie sagten). FA-Modelle sind vorzuziehen, da sie explizit Messfehler berücksichtigen, während sich PCA nicht darum kümmert. Kurz gesagt, mit PCA drücken Sie jede Komponente (Faktor) als Linearkombination der Variablen aus, während dies in FA die Variablen sind, die als Linearkombination der Faktoren ausgedrückt werden (einschließlich der Komponenten für Gemeinsamkeiten und Eindeutigkeiten, wie Sie sagten). FA-Modelle sind vorzuziehen, da sie explizit Messfehler berücksichtigen, während sich PCA nicht darum kümmert. Kurz gesagt, mit PCA drücken Sie jede Komponente (Faktor) als Linearkombination der Variablen aus, während dies in FA die Variablen sind, die als Linearkombination der Faktoren ausgedrückt werden (einschließlich der Komponenten für Gemeinsamkeiten und Eindeutigkeiten, wie Sie sagten).
Ich empfehle Ihnen, zuerst die folgenden Diskussionen zu diesem Thema zu lesen:
quelle
PCA followed by VARIMAX rotation somewhat distorts the interpretation of the linear combinations of the original variables in the "data analysis" tradition
. Chl, könntest du es erklären? Das ist interessant.Es gibt zahlreiche vorgeschlagene Definitionen im Internet. Hier ist eines aus einem Online-Glossar zum statistischen Lernen :
quelle
Die erste Antwort in diesem Thread deutet darauf hin, dass PCA eher eine Technik zur Reduzierung der Dimensionalität ist, während FA eher eine Technik mit latenten Variablen ist. Dies ist im engeren Sinne richtig. Aber viele Antworten hier und viele Behandlungen anderswo präsentieren PCA und FA als zwei völlig unterschiedliche Methoden, mit unterschiedlichen, wenn nicht gegensätzlichen Zielen, Methoden und Ergebnissen. Ich stimme dir nicht zu; Ich glaube, wenn PCA als latente Variablentechnik betrachtet wird, ist es der FA ziemlich ähnlich, und sie sollten besser als sehr ähnliche Methoden angesehen werden.
Ich habe im folgenden Thread meine eigene Darstellung der Ähnlichkeiten und Unterschiede zwischen PCA und FA gegeben: Gibt es einen guten Grund, PCA anstelle von EFA zu verwenden? Kann PCA auch ein Ersatz für die Faktoranalyse sein? Dort argumentiere ich, dass aus einfachen mathematischen Gründen das Ergebnis von PCA und FA ziemlich ähnlich sein dürfte, nur weil die Anzahl der Variablen nicht sehr klein ist (vielleicht über ein Dutzend). Siehe meine [lange!] Antwort im verlinkten Thread für mathematische Details und Monte-Carlo-Simulationen. Eine viel präzisere Version meines Arguments finden Sie hier: Unter welchen Bedingungen liefern PCA und FA ähnliche Ergebnisse?
Hier möchte ich es an einem Beispiel zeigen. Ich werde den Wein-Datensatz aus dem UCI Machine Learning Repository analysieren . Es ist ein ziemlich bekannter Datensatz mit Weinen aus drei verschiedenen Trauben, die durch Variablen beschrieben werden. So sieht die Korrelationsmatrix aus:n=178 p=13
Ich habe sowohl die PCA- als auch die FA-Analyse durchgeführt und 2D-Projektionen der Daten als Biplots für beide in der folgenden Abbildung gezeigt (PCA links, FA rechts). Die horizontalen und vertikalen Achsen zeigen die ersten und zweiten Komponenten- / Faktorwerte. Jeder der Punkte entspricht einem Wein und die Punkte sind entsprechend der Gruppe gefärbt (siehe Legende):n=178
Die Ladungen der 1. und 2. Komponente / des 2. Faktors auf jede der Originalvariablen sind als schwarze Linien dargestellt. Sie sind gleich Korrelationen zwischen jeder der ursprünglichen Variablen und den beiden Komponenten / Faktoren. Natürlich dürfen die Korrelationen nicht überschreiten , daher sind alle Ladelinien innerhalb des "Korrelationskreises" enthalten, der die maximal mögliche Korrelation anzeigt. Alle Belastungen und der Kreis sind willkürlich um den Faktor skaliert , sonst wären sie zu klein, um gesehen zu werden (der Radius des Kreises ist also und nicht ).p=13 1 3 3 1
Beachten Sie, dass es kaum einen Unterschied zwischen PCA und FA gibt! Hier und da gibt es kleine Abweichungen, aber das allgemeine Bild ist fast identisch, und alle Belastungen sind sehr ähnlich und weisen in die gleiche Richtung. Dies ist genau das, was von der Theorie erwartet wurde und ist keine Überraschung; dennoch ist es lehrreich zu beobachten.
PS. Einen viel schöneren PCA-Biplot desselben Datensatzes finden Sie in dieser Antwort von @vqv .
PPS. Während PCA-Berechnungen Standard sind, erfordern FA-Berechnungen möglicherweise einen Kommentar. Faktorladungen wurden durch einen "iterierten Hauptfaktor" -Algorithmus bis zur Konvergenz (9 Iterationen) berechnet, wobei Kommunalitäten mit Teilkorrelationen initialisiert wurden. Sobald die Ladungen konvergierten, wurden die Punktzahlen nach der Bartlett-Methode berechnet. Dies ergibt standardisierte Ergebnisse; Ich skalierte sie um die jeweiligen Faktorabweichungen (gegeben durch Ladungslängen).
quelle
Eine einfache und dennoch sorgfältige Erklärung der Analyse von PCA vs. Faktor anhand von Streudiagrammen in logischen Schritten. (Ich danke @amoeba, der mich in seinem Kommentar zu der Frage ermutigt hat, eine Antwort zu posten, anstatt Links zu anderen Stellen zu erstellen. Hier ist also eine kurze, verspätete Antwort.)
PCA als variable Zusammenfassung (Merkmalsextraktion)
Ich hoffe, Sie haben bereits Verständnis für PCA. Jetzt wiederzubeleben.
Angenommen, wir haben korrelierende Variablen und . Wir zentrieren sie (subtrahieren den Mittelwert) und zeichnen ein Streudiagramm. Dann führen wir eine PCA für diese zentrierten Daten durch. PCA ist eine Form der Achsendrehung, bei der die Achsen P1 und P2 anstelle von V1 und V2 angeboten werden. Die Schlüsseleigenschaft von PCA besteht darin, dass P1 - als erste Hauptkomponente bezeichnet - so ausgerichtet wird, dass die Varianz der Datenpunkte entlang der Komponente maximiert wird. Die neuen Achsen sind neue Variablen, deren Werte berechenbar sind, solange wir die Rotationskoeffizienten (PCA liefert sie) [ Gl. 1 ]:V1 V2 a
Diese Koeffizienten sind Rotationskosinusse (= Richtungskosinusse, Hauptrichtungen) und umfassen sogenannte Eigenvektoren, während Eigenwerte der Kovarianzmatrix die Hauptkomponentenvarianzen sind. In PCA verwerfen wir normalerweise schwache letzte Komponenten. Auf diese Weise fassen wir die Daten nach wenigen zuerst extrahierten Komponenten zusammen, ohne dass dabei Daten verloren gehen.
Mit unseren aufgezeichneten Daten, P1-Komponentenwerten (Scores)
P1 = .73543*V1 + .67761*V2
und Komponente P2 verwerfen wir. P1 der Varianz ist1.75756
, der erste Eigenwert der Kovarianzmatrix, und so P1 erklärt86.5%
die Gesamtvarianz , die gleich .(1.07652+.95534) = (1.75756+.27430)
PCA als variable Vorhersage ("latentes" Merkmal)
Wir haben also P2 verworfen und erwarten, dass P1 allein die Daten angemessen darstellen kann. Das ist gleichbedeutend damit, dass und ziemlich gut "rekonstruieren" oder vorhersagen kann [ Gl. 2 ]:P1 V1 V2
wo Koeffizienten sind, was wir bereits wissen, und sind die Fehler (Unvorhersehbarkeit). Dies ist eigentlich ein "Regressionsmodell", bei dem beobachtete Variablen durch die latente Variable vorhergesagt (zurück) werden (wenn eine Komponente als "latente" bezeichnet werden soll). P1 wird aus denselben Variablen extrahiert. Schauen Sie sich die Handlung Fig.2 an , es ist nichts anderes als Fig.1 , nur detailliert:a E
Die P1-Achse wird mit ihren Werten (P1-Punktzahlen) in Grün nebeneinander dargestellt (diese Werte sind die Projektionen von Datenpunkten auf P1). Einige beliebige Datenpunkte wurden mit A, B, ... bezeichnet, und ihre Abweichung (Fehler) von P1 sind fettgedruckte schwarze Anschlüsse. Für Punkt A werden Details gezeigt: Die Koordinaten der P1-Punktzahl (grünes A) auf den V1- und V2-Achsen sind die P1-rekonstruierten Werte von V1 und V2 gemäß Gleichung 2 , und . Die Rekonstruktionsfehler und werden ebenfalls in beige angezeigt. Die quadrierte Länge des "Fehler" -Anschlusses ist nach Pythagoräer die Summe der beiden quadrierten Fehler.V1^=a11P1 V2^=a12P1 E1=V1−V1^ E2=V2−V2^
Nun, was charakteristisch für PCA ist , dass , wenn wir E1 und E2 für jeden Punkt in den Daten berechnen und zeichnen Sie diese Koordinaten - also machen den Scatterplot der Fehler allein, die Wolke „Fehlerdaten“ mit der verworfenen Komponente P2 übereinstimmt. Und das ist auch so: Die Wolke wird auf dem gleichen Bild wie die beige Wolke dargestellt - und Sie sehen, dass sie tatsächlich die Achse P2 (von 1 ) bildet, die mit P2-Komponentenwerten gekachelt ist.
Kein Wunder, könnte man sagen. Es ist so offensichtlich: In PCA ist die verworfene (n) Junior-Komponente (n) genau das, was (die) in den Vorhersagefehlern E zerlegt (zerlegen), in dem Modell, das (die) ursprüngliche Variablen V durch das (die) latente (n) Merkmal (e) P1 erklärt (wieder herstellt). Fehler E bilden zusammen nur die ausgelassene (n) Komponente (n). Hier beginnt sich die Faktorenanalyse von der PCA zu unterscheiden.
Die Idee der gemeinsamen FA (latentes Merkmal)
Formal ist das Modell zur Vorhersage von Manifestvariablen durch die extrahierten latenten Merkmale in FA dasselbe wie in PCA. [ Gl. 3 ]:
wobei F der latente gemeinsame Faktor ist , der aus den Daten extrahiert wurde und das ersetzt, was P1 in Gleichung 2 war . Der Unterschied im Modell besteht darin, dass in FA im Gegensatz zu PCA die Fehlervariablen (E1 und E2) nicht miteinander korreliert sein müssen .
Exkurs . Hier möchte ich plötzlich die Geschichte unterbrechen und eine Vorstellung davon machen, welche Koeffizienten . In PCA, sagten wir, waren dies Einträge von Eigenvektoren, die in PCA gefunden wurden (über Eigen- oder Singularwertzerlegung). Während latentes P1 seine native Varianz hatte. Wenn wir P1 auf die Einheitsvarianz normieren, müssen wir dies durch geeignete Skalierung der Koeffizienten kompensieren , um die Gleichung zu unterstützen. Das vergrößerte s nennt man Ladungen ; Sie sind numerisch von Interesse, da sie die Kovarianzen (oder Korrelationen) zwischen den latenten und den beobachtbaren Variablen darstellen und daher bei der Interpretation des latenten Merkmals hilfreich sein können. In beiden Modellen - Gl. 2 und Gl. 3a a a a a a aa a - Sie können frei entscheiden, auf welche Weise die Terme skaliert werden, ohne die Gleichung zu beschädigen. Wenn F (oder P1) wird als Einheit skaliert, ist Belastung; während , wenn F (P1) hat seine native Skala (Varianz) haben, dann entsprechend zu entkalkt werden - in PCA , die Eigenvektor Einträge, aber in FA gleich wird sie verschieden sind und in der Regel werden nicht genannt „Eigenvektoren“. In den meisten Texten auf Faktoranalyse, werden F Varianz so angenommen Are Belastungen . In PCA Literatur wird P1 typischerweise seine wirkliche Varianz diskutiert aufweist und so Eigenvektoren.a a a a
OK, zurück zum Thread. E1 und E2 sind in der Faktoranalyse nicht korreliert; Sie sollten daher eine Fehlerwolke bilden, die entweder rund oder elliptisch, aber nicht diagonal ausgerichtet ist. In der PCA bildete ihre Wolke eine gerade Linie, die mit der diagonal verlaufenden P2 übereinstimmte. Beide Ideen werden auf dem Bild gezeigt:
Beachten Sie, dass Fehler in FA runde (nicht diagonal verlängerte) Wolken sind. Der Faktor (latent) in FA ist etwas anders ausgerichtet, dh es ist nicht die erste Hauptkomponente, die in PCA "latent" ist. Auf dem Bild ist die Faktorlinie merkwürdig konisch - am Ende wird klar, warum.
Was bedeutet dieser Unterschied zwischen PCA und FA? Variablen korreliert, was sich in der diagonal elliptischen Form der Datenwolke zeigt. P1 hat die maximale Varianz abgeschöpft, sodass die Ellipse auf P1 gerichtet ist. Infolgedessen erklärte P1 selbst die Korrelation; aber es hat die existierende Menge an Korrelation nicht angemessen erklärt; es schien die Variation der Datenpunkte zu erklären , nicht die Korrelation. Tatsächlich hat es die Korrelation überbewertet, woraus das Auftreten der diagonalen, korrelierten Fehlerwolke resultierte, die das Überbewerten kompensiert. P1 allein kann die Stärke der Korrelation / Kovariation nicht umfassend erklären. Faktor F kannMach es alleine; und die Bedingung, wenn es dazu in der Lage ist, ist genau, wo Fehler gezwungen werden können, unkorreliert zu sein. Da die Fehlerwolke rund ist, ist keine Korrelation - positiv oder negativ - geblieben, nachdem der Faktor extrahiert wurde, daher ist es der Faktor, der alles überflogen hat.
Als Dimensionsreduktion erklärt PCA die Varianz , erklärt aber die Korrelationen ungenau. FA erklärt Zusammenhänge , kann aber (aufgrund der üblichen Faktoren) nicht so viele Datenvariationen wie PCA berücksichtigen. Faktor (en) in FA berücksichtigen den Teil der Variabilität, der der Nettokorrelationsanteil ist, der als Kommunalität bezeichnet wird ; und daher können Faktoren als reale, jedoch nicht beobachtbare Kräfte / Merkmale / Eigenschaften interpretiert werden, die sich "in" oder "hinter" den Eingabevariablen verstecken, um sie zu korrelieren. Weil sie die Korrelation mathematisch gut erklären. Die Hauptkomponenten (nur wenige erste) erklären es mathematisch nicht so gut und können daher nur an einigen Stellen und vorläufig als "latentes Merkmal" (oder so) bezeichnet werden .
Die Multiplikation von Ladungen ist das, was Korrelation oder Korrelation in Form von Kovarianz erklärt (wiederherstellt) - wenn die Analyse auf einer Kovarianzmatrix (wie in unserem Beispiel) und nicht auf einer Korrelationsmatrix basiert. Die Faktorenanalyse, die ich mit den Daten durchgeführt habe, ergab
a_1=.87352, a_2=.84528
, dass das Produkta_1*a_2 = .73837
fast der Kovarianz entspricht.73915
. Andererseits wurden PCA-Ladungena1_1=.97497, a1_2=.89832
, also erheblicha1_1*a1_2 = .87584
überschätzt.73915
.Nachdem wir den wichtigsten theoretischen Unterschied zwischen PCA und FA erklärt haben, kehren wir zu unseren Daten zurück, um die Idee zu veranschaulichen.
FA: ungefähre Lösung (Faktorwerte)
Unten ist die Scatterplot der Ergebnisse der Analyse zeigen , dass wir vorläufig „suboptimal Faktoranalyse“, rufen werden Abb.3 .
Siehe Abweichungen von Fig . 2 der PCA. Die beige Wolke der Fehler ist nicht rund, sondern diagonal elliptisch - und doch offenbar viel dicker als die dünne diagonale Linie, die bei PCA aufgetreten ist. Beachten Sie auch, dass die Fehleranschlüsse (für einige Punkte angezeigt) nicht mehr parallel sind (in PCA waren sie definitionsgemäß parallel zu P2). Wenn Sie zum Beispiel die Punkte "F" und "E" betrachten, die spiegelsymmetrisch über der F- Achse des Faktors liegen , werden Sie darüber hinaus unerwartet feststellen, dass ihre entsprechenden Faktorwerte sehr unterschiedliche Werte sind. Mit anderen Worten, Faktor-Scores sind nicht nur linear transformierte Hauptkomponenten-Scores: Faktor F wird auf seine eigene Art und Weise gefunden, die sich von der von P1 unterscheidet. Und ihre Achsen stimmen nicht vollständig überein, wenn sie im selben Diagramm dargestellt sind. Abb.4 :
Abgesehen davon, dass sie ein bisschen anders orientiert sind, ist F (wie mit Punkten gekachelt) kürzer, dh es macht eine geringere Varianz aus als P1. Wie bereits erwähnt, berücksichtigt der Faktor nur die Variabilität, die für die Korrelation von V1 V2 verantwortlich ist, dh den Anteil der Gesamtvarianz, der ausreicht, um die Variablen von der ursprünglichen Kovarianz
0
zur tatsächlichen Kovarianz zu bringen.73915
.FA: optimale Lösung (wahrer Faktor)
Eine optimale Faktorlösung ist, wenn die Fehler rund sind oder keine diagonale elliptische Wolke: E1 und E2 sind vollständig unkorreliert . Die Faktorenanalyse liefert tatsächlich eine solche optimale Lösung. Ich habe es nicht auf einem einfachen Streudiagramm wie dem oben gezeigten gezeigt. Warum habe ich? - denn es wäre doch das interessanteste gewesen.
Der Grund ist, dass es unmöglich ist, auf einem Streudiagramm ausreichend zu zeigen, selbst wenn ein 3D-Diagramm übernommen wird. Theoretisch ist das ein ziemlich interessanter Punkt. Um E1 und E2 vollständig unkorreliert zu machen, scheinen alle diese drei Variablen F, E1, E2 nicht in dem durch V1, V2 definierten Raum (Ebene) zu liegen ; und die drei müssen unkorreliert sein . Ich glaube, dass es möglich ist, ein solches Streudiagramm in 5D zu zeichnen (und vielleicht mit ein wenig Spielerei - in 4D), aber wir leben leider in der 3D-Welt. Faktor F muss sowohl mit E1 als auch mit E2 unkorreliert sein (während beide ebenfalls unkorreliert sind), da F die einzige (saubere) und vollständige Korrelationsquelle in den beobachteten Daten sein soll. Die Faktoranalyse teilt die Gesamtvarianz der
p
Eingabevariablen in zwei nicht korrelierte (nicht überlappende) Teile: den Kommunalitätsteil (m
-dimensional, wom
gemeinsame Faktoren herrschen) und den Eindeutigkeitsteil (p
-dimensional, wo Fehler, auch eindeutige Faktoren genannt, nicht miteinander korreliert sind).Verzeihung, dass wir hier nicht den wahren Faktor unserer Daten in einem Streudiagramm darstellen. Es könnte über Vektoren im "Subjektraum", wie hier gemacht, ziemlich gut visualisiert werden, ohne Datenpunkte zu zeigen.
Oben im Abschnitt "Die Idee des gemeinsamen FA (latentes Merkmal)" habe ich den Faktor (Achse F) als Keil angezeigt, um zu warnen, dass die Achse des wahren Faktors nicht in der Ebene V1 V2 liegt. Dies bedeutet, dass - im Gegensatz zur Hauptkomponente P1 - der Faktor F als Achse keine Drehung der Achse V1 oder V2 in ihrem Raum ist und F als Variable keine lineare Kombination der Variablen V1 und V2 ist. Daher wird F so modelliert (aus den Variablen V1 und V2 extrahiert), als ob es sich um eine äußere, unabhängige Variable und nicht um eine Ableitung derselben handelt. Gleichungen wie Gleichung 1, ab der PCA beginnt, sind nicht anwendbar, um den wahren (optimalen) Faktor in der Faktoranalyse zu berechnen , wohingegen formal isomorphe Gleichungen Gleichung 2 und Gleichung 3gelten für beide Analysen. Das heißt, in PCA-Variablen generieren Komponenten und Komponenten prognostizieren Variablen zurück; in FA - Faktor (en) erzeugen / Variablen vorhersagen, und nicht zurück - gemeinsames Faktor Modell geht davon aus konzeptionell so , obwohl technisch Faktoren aus den beobachteten Variablen extrahiert werden.
Nicht nur der wahre Faktor ist keine Funktion der Manifestvariablen, auch die Werte des wahren Faktors sind nicht eindeutig definiert . Mit anderen Worten, sie sind einfach unbekannt. Dies alles ist auf die Tatsache zurückzuführen, dass wir uns im übermäßigen 5D-Analysebereich und nicht im 2D-Ausgangsbereich der Daten befinden. Für uns gibt es nur gute Annäherungen (es gibt eine Reihe von Methoden ) an wahre Faktorwerte, sogenannte Faktor-Scores . Faktor-Scores liegen in der Ebene V1 V2, wie die Hauptkomponenten-Scores auch, sie werden als lineare Funktionen von V1, V2 berechnet und waren es auchdas habe ich im Abschnitt "FA: Näherungslösung (Faktorwerte)" eingetragen. Hauptkomponentenbewertungen sind wahre Komponentenwerte; Faktorwerte sind nur eine vernünftige Annäherung an die unbestimmten wahren Faktorwerte.
FA: Zusammenfassung des Verfahrens
Zu einem kleinen Gerinnsel zusammenfassen, was in den beiden vorhergehenden Abschnitten gesagt wurde, und letzte Striche hinzufügen. Tatsächlich kann FA ( wenn Sie es richtig machen und auch Datenannahmen sehen ) die Lösung des wahren Faktors finden (mit "wahr" meine ich hier optimal für die Datenstichprobe). Es gibt jedoch verschiedene Extraktionsmethoden (sie unterscheiden sich in einigen von ihnen auferlegten sekundären Einschränkungen). Die wahre Faktor Lösung ist bis Beladungen nur. Somit sind Ladungen von optimalen, wahren Faktoren. Faktorwerte - falls erforderlich - können auf verschiedene Weise aus diesen Belastungen berechnet werden und geben Annäherungen an die Faktorwerte zurück.a
Somit basierte die von mir im Abschnitt "FA: Näherungslösung (Faktorwerte)" angezeigte "Faktorlösung" tatsächlich auf optimalen Belastungen, dh auf wahren Faktoren. Aber die Ergebnisse waren vom Schicksal her nicht optimal. Die Bewertungen werden wie die Komponentenbewertungen als lineare Funktion der beobachteten Variablen berechnet, sodass beide auf einem Streudiagramm verglichen werden können, und ich habe es in didaktischer Verfolgung getan, um zu zeigen, wie ein schrittweiser Übergang von der PCA-Idee zur FA-Idee.
Man muss vorsichtig sein, wenn man auf dem gleichen Biplot Faktorladungen mit Faktorbewertungen im "Raum der Faktoren" plottet , sich bewusst sein, dass Ladungen sich auf wahre Faktoren beziehen, während sich Bewertungen auf Ersatzfaktoren beziehen (siehe meine Kommentare zu dieser Antwort in diesem Thread).
Die Rotation von Faktoren (Belastungen) hilft bei der Interpretation der latenten Merkmale. Das Drehen von Lasten kann auch in PCA erfolgen, wenn Sie PCA als Faktoranalyse verwenden (dh PCA als variable Vorhersage ansehen). PCA tendiert dazu, mit zunehmender Anzahl von Variablen in den Ergebnissen mit FA zu konvergieren (siehe den äußerst umfangreichen Thread zu praktischen und konzeptuellen Ähnlichkeiten und Unterschieden zwischen den beiden Methoden). Siehe meine Liste der Unterschiede zwischen PCA und FA am Ende dieser Antwort . Schritt für Schritt Berechnungen von PCA vs FA auf Iris - Datensatz gefunden werden hier . Es gibt eine beträchtliche Anzahl guter Links zu den Antworten anderer Teilnehmer zu dem Thema außerhalb dieses Threads. Es tut mir leid, dass ich in der aktuellen Antwort nur wenige davon verwendet habe.
Siehe auch eine Aufzählung der Unterschiede zwischen PCA und FA hier .
quelle
Unterschiede zwischen Faktoranalyse und Hauptkomponentenanalyse sind:
• In der Faktorenanalyse gibt es ein strukturiertes Modell und einige Annahmen. In dieser Hinsicht handelt es sich um eine statistische Technik, die nicht für die Hauptkomponentenanalyse gilt, bei der es sich um eine rein mathematische Transformation handelt.
• Ziel der Hauptkomponentenanalyse ist es, die Varianz zu erklären, während die Faktoranalyse die Kovarianz zwischen den Variablen erklärt.
Einer der Hauptgründe für die Verwechslung zwischen beiden liegt in der Tatsache, dass eine der Methoden zur Faktorextraktion in der Faktoranalyse als "Methode der Hauptkomponenten" bezeichnet wird. Es ist jedoch eine Sache, PCA zu verwenden, und eine andere Sache, die Methode der Hauptkomponenten in FA zu verwenden. Die Namen mögen ähnlich sein, aber es gibt signifikante Unterschiede. Ersteres ist eine unabhängige Analysemethode, während letzteres lediglich ein Werkzeug zur Faktorextraktion ist.
quelle
Für mich (und ich hoffe, das ist nützlich) ist die Faktorenanalyse viel nützlicher als PCA.
Vor kurzem hatte ich das Vergnügen, eine Skala durch Faktoranalyse zu analysieren. Diese Skala (obwohl sie in der Industrie weit verbreitet ist) wurde unter Verwendung von PCA entwickelt und meines Wissens wurde der Faktor nie analysiert.
Als ich die Faktorenanalyse (Hauptachse) durchführte, stellte ich fest, dass die Gemeinsamkeiten für drei der Elemente weniger als 30% waren, was bedeutet, dass über 70% der Varianz der Elemente nicht analysiert wurden. PCA wandelt die Daten nur in eine neue Kombination um und kümmert sich nicht um Gemeinsamkeiten. Mein Fazit war, dass die Skala aus psychometrischer Sicht nicht sehr gut war, und ich habe dies mit einer anderen Stichprobe bestätigt.
Wenn Sie die Faktoren vorhersagen möchten, verwenden Sie im Wesentlichen PCA, und wenn Sie die latenten Faktoren verstehen möchten, verwenden Sie die Faktoranalyse.
quelle
Erweiterung der Antwort von @ StatisticsDocConsulting: Der Unterschied in der Beladung zwischen EFA und PCA ist mit einer kleinen Anzahl von Variablen nicht trivial. Hier ist eine Simulationsfunktion, um dies in R zu demonstrieren:
Standardmäßig führt diese Funktion 100 aus=1000
Iterations
, wobei jede von ihnen zufällige, normalverteilte Stichproben ( ) von drei Variablen erzeugt und einen Faktor mit PCA und ML-EFA extrahiert. Es gibt eine Liste von zwei langen Vektoren aus, die sich aus den mittleren Beträgen der Belastungen der simulierten Variablen für die nicht gedrehte erste Komponente von PCA bzw. den allgemeinen Faktor von EFA zusammensetzen. Es ermöglicht Ihnen , mit Stichprobengröße und Anzahl von Variablen zu spielen , um und Faktoren , die Ihre Situation zu entsprechen, innerhalb der Grenzen der und Funktionen und dem Computer.Sample.Size
Iterations
principal()
factanal()
Mit diesem Code habe ich Beispiele von 3 bis 100 Variablen mit jeweils 500 Iterationen simuliert, um Daten zu erzeugen:
... für ein Diagramm der Empfindlichkeit der mittleren Belastungen (über Variablen und Iterationen hinweg) gegenüber der Anzahl der Variablen:
Dies zeigt, wie unterschiedlich man die Belastungsstärke bei PCA vs. EFA interpretieren muss. Beide hängen etwas von der Anzahl der Variablen ab, aber die Ladevorgänge sind in PCA viel stärker nach oben gerichtet. Die Differenz zwischen den mittleren Ladungen dieser Methoden nimmt mit zunehmender Anzahl von Variablen ab, aber selbst bei 100 Variablen sind die PCA-Ladungen im Durchschnitt höher als die EFA-Ladungen in zufälligen normalen Daten. Beachten Sie jedoch, dass die mittleren Belastungen in realen Anwendungen normalerweise höher sind, da diese Methoden im Allgemeinen für stärker korrelierte Variablen verwendet werden. Ich bin mir nicht sicher, wie sich dies auf die Differenz der mittleren Ladungen auswirkt..067
quelle
Man kann sich eine PCA als eine FA vorstellen, bei der angenommen wird, dass die Kommunalitäten für alle Variablen gleich 1 sind. In der Praxis bedeutet dies, dass Artikel, die aufgrund geringer Kommunalität eine relativ geringe Faktorbelastung in FA aufweisen, eine höhere Belastung in PCA aufweisen. Dies ist keine wünschenswerte Funktion, wenn der Hauptzweck der Analyse darin besteht, die Objektlänge zu verringern und eine Batterie von Objekten mit geringer oder nicht eindeutiger Belastung zu reinigen oder Konzepte zu identifizieren, die im Objektpool nicht gut vertreten sind.
quelle
Ein Zitat aus einem wirklich schönen Lehrbuch (Brown, 2006, S. 22, Hervorhebung hinzugefügt).
PCA = Hauptkomponentenanalyse
EFA = Exploratory Factor Analysis
CFA = Confirmatory Factor Analysis
Brown, TA (2006). Bestätigungsfaktoranalyse für die angewandte Forschung. New York: Guilford Press.
quelle
In einem Artikel von Tipping und Bischop wird die enge Beziehung zwischen probabalistischer PCA (PPCA) und Faktoranalyse diskutiert. PPCA ist näher an FA als der klassische PCA. Das gängige Modell ist
Wobei , und . x ~ N ( 0 , I ) ε ~ N ( 0 , Ψ )W∈Rp,d x∼N(0,I) ϵ∼N(0,Ψ)
Michael E. Tipping, Christopher M. Bishop (1999). Probabilistic Principal Component Analysis , Zeitschrift der Royal Statistical Society, Band 61, Ausgabe 3, Seiten 611–622
quelle
Keine dieser Antworten ist perfekt. Entweder FA oder PCA hat einige Varianten. Wir müssen deutlich machen, welche Varianten verglichen werden. Ich würde die Maximum-Likelihood-Faktor-Analyse mit der PCA von Hotelling vergleichen. Ersteres setzt voraus, dass die latente Variable einer Normalverteilung folgt, PCA jedoch keine solche Annahme trifft. Dies hat zu Unterschieden wie der Lösung, der Verschachtelung der Komponenten, der Einzigartigkeit der Lösung und den Optimierungsalgorithmen geführt.
quelle
Es gibt viele gute Antworten auf diesen Beitrag, aber kürzlich bin ich auf einen weiteren Unterschied gestoßen.
Clustering ist eine Anwendung, bei der PCA und FA unterschiedliche Ergebnisse liefern. Wenn die Daten viele Funktionen enthalten, wird möglicherweise versucht, die wichtigsten PC-Anweisungen zu finden und die Daten auf diese PCs zu projizieren. Anschließend wird mit dem Clustering fortgefahren. Häufig stört dies die inhärenten Cluster in den Daten. Dies ist ein bewährtes Ergebnis. Die Forscher schlagen vor, mit Subraum-Clustering-Methoden fortzufahren, die nach niedrigdimensionalen latenten Faktoren im Modell suchen.
Um diesen Unterschied zu veranschaulichen, betrachten Sie den
Crabs
Datensatz in R. Crabs. Der Datensatz enthält 200 Zeilen und 8 Spalten, die 5 morphologische Messungen an 50 Krabben mit jeweils zwei Farbformen und beiden Geschlechtern der Art beschreiben. Im Wesentlichen gibt es 4 (2x2) verschiedene Klassen von Krabben.Clustering mit PC1 und PC2:
Clustering mit PC2 und PC3:
Wie aus den obigen Darstellungen ersichtlich ist, enthalten PC2 und PC3 mehr Unterscheidungsinformationen als PC1.
Wenn man versucht, die latenten Faktoren mithilfe eines Mixture of Factor Analyzers zu gruppieren, sehen wir ein viel besseres Ergebnis als bei den ersten beiden PCs.
quelle