Ist es möglich, die Ergebnisse der Hauptkomponentenanalyse auf eine Weise darzustellen, die mehr Einsicht bietet als nur Übersichtstabellen? Ist es möglich, dies zu tun, wenn die Anzahl der Beobachtungen groß ist, sagen wir ~ 1e4? Und ist es möglich, es in R [andere Umgebungen willkommen] zu tun?
r
data-visualization
pca
biplot
gappy
quelle
quelle
Antworten:
Der Biplot ist ein nützliches Tool zur Visualisierung der PCA-Ergebnisse. Es ermöglicht Ihnen, die wichtigsten Komponentenwerte und Richtungen gleichzeitig zu visualisieren. Bei 10.000 Beobachtungen werden Sie wahrscheinlich auf ein Problem mit der Überzeichnung stoßen. Alpha Blending könnte da helfen.
Hier ist ein PC-Biplot der Weindaten aus dem UCI ML-Repository :
Die Punkte entsprechen den PC1- und PC2-Bewertungen jeder Beobachtung. Die Pfeile stellen die Korrelation der Variablen mit PC1 und PC2 dar. Der weiße Kreis gibt die theoretische maximale Ausdehnung der Pfeile an. Die Ellipsen sind 68% Datenellipsen für jede der 3 Weinsorten in den Daten.
Ich habe den Code zum Generieren dieses Plots hier verfügbar gemacht .
quelle
Ein Wachter-Plot kann Ihnen helfen, die Eigenwerte Ihres PCA zu visualisieren. Es ist im Wesentlichen ein QQ-Plot der Eigenwerte gegen die Marchenko-Pastur-Verteilung. Ich habe hier ein Beispiel: Es gibt einen dominanten Eigenwert, der außerhalb der Marchenko-Pastur-Verteilung liegt. Der Nutzen dieser Art von Plot hängt von Ihrer Anwendung ab.
quelle
Sie könnten auch das Psychopaket verwenden.
Diese enthält eine plot.factor-Methode, mit der die verschiedenen Komponenten im Stil einer Scatterplot-Matrix gegeneinander geplottet werden.
quelle