Ich versuche, die Ausgabe der Hauptkomponentenanalyse wie folgt zu verstehen:
> head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265
Rotation:
PC1 PC2 PC3 PC4
Sepal.Length 0.5210659 -0.37741762 0.7195664 0.2612863
Sepal.Width -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length 0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width 0.5648565 -0.06694199 -0.6342727 0.5235971
>
> summary(res)
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion 0.7296 0.9581 0.99482 1.00000
>
Ich neige dazu, aus der obigen Ausgabe folgendes zu schließen:
Der Varianzanteil gibt an, wie viel Gesamtvarianz in der Varianz einer bestimmten Hauptkomponente vorhanden ist. Daher erklärt die PC1-Variabilität 73% der Gesamtvarianz der Daten.
Die angezeigten Rotationswerte entsprechen den in einigen Beschreibungen genannten "Belastungen".
In Anbetracht der Rotationen von PC1 kann man schließen, dass Sepal.Length, Petal.Length und Petal.Width in direktem Zusammenhang stehen und alle in umgekehrter Beziehung zu Sepal.Width stehen (was einen negativen Wert bei der Rotation von PC1 hat).
In Pflanzen kann es einen Faktor geben (einige chemische / physikalische Funktionssysteme usw.), der alle diese Variablen beeinflusst (Sepal.Length, Petal.Length und Petal.Width in einer Richtung und Sepal.Width in der entgegengesetzten Richtung).
Wenn ich alle Rotationen in einem Diagramm anzeigen möchte, kann ich ihren relativen Beitrag zur Gesamtvariation zeigen, indem ich jede Rotation mit dem Varianzanteil dieser Hauptkomponente multipliziere. Beispielsweise werden für PC1 die Umdrehungen von 0,52, -0,26, 0,58 und 0,56 alle mit 0,73 multipliziert (proportionale Varianz für PC1, gezeigt in der zusammenfassenden (res) Ausgabe.
Habe ich Recht mit den obigen Schlussfolgerungen?
Bearbeiten zu Frage 5: Ich möchte alle Rotationen in einem einfachen Balkendiagramm wie folgt anzeigen:
Ist es sinnvoll, die Belastungen der Variablen dort anzupassen (zu reduzieren), da PC2, PC3 und PC4 zunehmend weniger zur Variation beitragen?
quelle
Antworten:
prcomp
Dokumentation bestätigt , obwohl ich nicht sicher bin, warum sie diesen Teil des Aspekts "Drehung" kennzeichnen, da dies impliziert, dass die Belastungen mit einer orthogonalen (wahrscheinlichen) oder schrägen (weniger wahrscheinlichen) Methode gedreht wurden.ggplot2
diese verwenden, wird dies meiner Meinung nach mit der Option ausgeführtalpha
ästhetisch), basierend auf dem Anteil der Varianz, der durch jede Komponente erklärt wird (dh mehr Volltonfarben = mehr erklärte Varianz). Nach meiner Erfahrung ist Ihre Zahl jedoch keine typische Art, die Ergebnisse einer PCA darzustellen. Ich denke, eine oder zwei Tabellen (Belastungen + Varianz in einer, Komponentenkorrelationen in einer anderen) wären viel einfacher.Verweise
LR Fabrigar, DT Wegener, RC MacCallum & EJ Strahan (1999). Bewertung der Verwendung der exploratorischen Faktoranalyse in der psychologischen Forschung. Psychological Methods , 4 , 272 & ndash; 299.
Widaman, KF (2007). Gemeinsame Faktoren versus Komponenten: Prinzipien und Prinzipien, Fehler und Missverständnisse . In R. Cudeck & RC MacCallum (Hrsg.), Faktoranalyse bei 100: Historische Entwicklungen und zukünftige Richtungen (S. 177-203). Mahwah, NJ: Lawrence Erlbaum.
quelle
quelle