Visualisierung einer Million, PCA-Edition

31

Ist es möglich, die Ergebnisse der Hauptkomponentenanalyse auf eine Weise darzustellen, die mehr Einsicht bietet als nur Übersichtstabellen? Ist es möglich, dies zu tun, wenn die Anzahl der Beobachtungen groß ist, sagen wir ~ 1e4? Und ist es möglich, es in R [andere Umgebungen willkommen] zu tun?

gappy
quelle
2
Ein paar Fragen: Wie viele Komponenten haben Sie? Gibt es neben der Stichprobengröße irgendetwas, das die Anzeige dieser PCA-Ausgabe von der Anzeige anderer kontinuierlicher Variablen unterscheidet, mit denen man sich möglicherweise befasst? Versuchen Sie, Partituren verschiedener Gruppen gegenüberzustellen, und wenn ja, wie viele? Was hoffen Sie generell mit Ihren Displays zu erreichen?
Rolando2

Antworten:

53

Der Biplot ist ein nützliches Tool zur Visualisierung der PCA-Ergebnisse. Es ermöglicht Ihnen, die wichtigsten Komponentenwerte und Richtungen gleichzeitig zu visualisieren. Bei 10.000 Beobachtungen werden Sie wahrscheinlich auf ein Problem mit der Überzeichnung stoßen. Alpha Blending könnte da helfen.

Hier ist ein PC-Biplot der Weindaten aus dem UCI ML-Repository :

PC Biplot von Weindaten aus dem UCI ML Repository

Die Punkte entsprechen den PC1- und PC2-Bewertungen jeder Beobachtung. Die Pfeile stellen die Korrelation der Variablen mit PC1 und PC2 dar. Der weiße Kreis gibt die theoretische maximale Ausdehnung der Pfeile an. Die Ellipsen sind 68% Datenellipsen für jede der 3 Weinsorten in den Daten.

Ich habe den Code zum Generieren dieses Plots hier verfügbar gemacht .

vqv
quelle
5
Eine echte Dynamitzugabe.
Rolando2
1
@amoeba Der Radius des Kreises entspricht der maximal möglichen Länge der Pfeile. Angenommen, V ist ein p×2VVVT
V
4

Ein Wachter-Plot kann Ihnen helfen, die Eigenwerte Ihres PCA zu visualisieren. Es ist im Wesentlichen ein QQ-Plot der Eigenwerte gegen die Marchenko-Pastur-Verteilung. Ich habe hier ein Beispiel: Wachter-Plot mit einem einzigen dominanten EigenwertEs gibt einen dominanten Eigenwert, der außerhalb der Marchenko-Pastur-Verteilung liegt. Der Nutzen dieser Art von Plot hängt von Ihrer Anwendung ab.

shabbychef
quelle
7
Es wäre hilfreich, hier mehr zu erfahren (möglicherweise zusätzliche Erläuterungen und / oder nützliche Links). Was ist die Marchenko-Pastur-Verteilung? In welcher Beziehung steht es zu PCA? Was bedeutet es für Ihre Ergebnisse, wenn es gilt oder nicht? (etc)
gung - Wiedereinsetzung von Monica
0

Sie könnten auch das Psychopaket verwenden.

Diese enthält eine plot.factor-Methode, mit der die verschiedenen Komponenten im Stil einer Scatterplot-Matrix gegeneinander geplottet werden.

richiemorrisroe
quelle