Nach der PCA beschreibt die erste Komponente den größten Teil der Variabilität. Dies ist wichtig, z. B. bei der Untersuchung von Körpermaßen, bei denen allgemein bekannt ist (Jolliffe, 2002), dass die PC1-Achse Größenschwankungen erfasst. Meine Frage ist, ob PCA-Scores nach Varimax-Rotation dieselben Eigenschaften beibehalten oder sich unterscheiden, wie in diesem Thema erwähnt ?
Da ich PCA-Scores für weitere statistische Analysen benötige, frage ich mich, ob Varimax benötigt wird, und stört dies tatsächlich die Darstellung der realen Stichprobenvariabilität, sodass einzelne Scores auf gedrehten Achsen nicht aussagekräftig sind oder zu einer Fehlinterpretation der Realität führen?
Könnte jemand auch andere Referenzen zu diesem Thema vorschlagen?
Workflows in R:
- PCA (
FactoMineR
oderprcomp
) -> Einzelne Punkte extrahieren -> Punkte in das Feld eingebenlm
- PCA (
FactoMiner
oderprcomp
) -> Varimax auf Ladematrix -> Berechnen Sie die einzelnen Bewertungen -> geben Sie die Bewertungen in die einlm
- FA (
psych
, Varimax- und PCA-Extraktionsmethode) -> einzelne Scores extrahieren -> Scores in das Feld eingebenlm
Ohne Rotation (1.) betragen die Prozentsätze der erklärten Variabilität auf den ersten drei Achsen 29,32, 5,6, 3,2. 2. und 3. Lösungen ergeben ähnliche Prozentsätze für die ersten drei Faktoren, dh 12.2, 12.1, 8.2. Natürlich neigt die 1. Lösung dazu, alle hohen variablen Belastungen auf die erste Achse zu drücken, während 2. und 3. dazu neigen, die Belastungen auf die Achsen zu verteilen (was der Grund für die Drehung ist). Ich wollte wissen, ob diese drei Workflows gleich wichtig sind, da die einzelnen Bewertungen für gedrehte und nicht gedrehte Achsen unterschiedlich sind.
quelle
Antworten:
Standardisierte Hauptkomponenten (nach Einheitsvarianz) nach einer orthogonalen Drehung, wie z. B. Varimax, sind einfach rotierte standardisierte Hauptkomponenten (mit "Hauptkomponente" meine ich PC-Scores). Bei der linearen Regression hat die Skalierung einzelner Prädiktoren keine Auswirkung, und das Ersetzen von Prädiktoren durch ihre linearen Kombinationen (z. B. über eine Rotation) hat ebenfalls keine Auswirkung. Dies bedeutet, dass in einer Regression eine der folgenden Optionen verwendet wird:
Die Gesamtvarianz, die von den rohen und von den gedrehten PCs erfasst wird, ist dieselbe.
Dies beantwortet Ihre Hauptfrage. Sie sollten jedoch mit Ihren Arbeitsabläufen vorsichtig sein, da es sehr leicht zu Verwirrung kommt und die Berechnungen durcheinander bringt. Der einfachste Weg, um standardisierte gedrehte PC-Scores zu erhalten, ist die Verwendung der folgenden
psych::principal
Funktion:Ihr Workflow Nr. 2 kann schwieriger sein als Sie denken, da die Belastungen nach der Varimax-Drehung nicht orthogonal sind. Um die Ergebnisse zu erhalten, können Sie die Daten nicht einfach auf die gedrehten Belastungen projizieren. Siehe meine Antwort hier für Details:
Ihr Workflow Nr. 3 ist wahrscheinlich auch falsch, zumindest wenn Sie sich auf die
psych::fa
Funktion beziehen . PCA wird nicht ausgeführt. Diefm="pa"
Extraktionsmethode bezieht sich auf die "Hauptfaktor" -Methode, die auf PCA basiert, jedoch nicht mit PCA identisch ist (es handelt sich um eine iterative Methode). Wie ich oben geschrieben habe, müssen Siepsych::principal
PCA durchführen.In meiner Antwort im folgenden Thread finden Sie einen detaillierten Bericht zu PCA und Varimax:
quelle