Interpretation von Biplots in der Hauptkomponentenanalyse

30

Ich bin auf dieses nette Tutorial gestoßen: Ein Handbuch für statistische Analysen mit R. Kapitel 13. Hauptkomponentenanalyse: Der olympische Siebenkampf zur Durchführung von PCA in R-Sprache. Ich verstehe die Interpretation von Abbildung 13.3 nicht:

Biplot

Ich zeichne also den ersten Eigenvektor gegen den zweiten Eigenvektor. Was bedeutet das? Angenommen, der dem ersten Eigenvektor entsprechende Eigenwert erklärt 60% der Variation im Datensatz, und der zweite Eigenwert-Eigenvektor erklärt 20% der Variation. Was bedeutet es, diese gegeneinander zu zeichnen?

user862
quelle

Antworten:

22

ppXn×p

XuupVariablen oder eine Kombination davon. In Ihrem Fall zeigt Abb. 13.3 in HSAUR, dass Joyner-Kersee (Jy-K) auf der 1. Achse einen hohen (negativen) Wert aufweist, was darauf hindeutet, dass er bei allen Veranstaltungen insgesamt recht gut abgeschnitten hat. Dieselbe Argumentation gilt für die Interpretation der zweiten Achse. Ich schaue mir die Figur sehr kurz an, um nicht auf Details einzugehen, und meine Interpretation ist mit Sicherheit oberflächlich. Ich gehe davon aus, dass Sie weitere Informationen im HSAUR-Lehrbuch finden. Hier ist anzumerken, dass sowohl Variablen als auch Individuen in demselben Diagramm dargestellt werden (dies wird als Biplot bezeichnet)r(x1,x2)=cos2(x1,x2)

Ich denke, Sie sollten jedoch ein Einführungsbuch über multivariate Analysen lesen, um einen tiefen Einblick in PCA-basierte Methoden zu erhalten. Zum Beispiel hat BS Everitt ein hervorragendes Lehrbuch zu diesem Thema geschrieben: Ein R- und S-Plus ® -Begleiter für die multivariate Analyse , und Sie können die Begleiter-Website zur Veranschaulichung überprüfen . Es gibt andere großartige R-Pakete für die angewandte multivariate Datenanalyse, wie ade4 und FactoMineR .

chl
quelle
r(x1,x2)=cos(x1,x2)cos2(x1,x2)
21

Die Handlung zeigt:

  • die Punktzahl jedes Falls (dh des Athleten) auf den ersten beiden Hauptkomponenten
  • das Laden jeder Variablen (dh jedes Sportereignisses) auf die ersten beiden Hauptkomponenten.

Die linke und die untere Achse zeigen [normalisierte] Hauptkomponentenbewertungen. Die obere und die rechte Achse zeigen die Belastungen.

Im Allgemeinen wird davon ausgegangen, dass zwei Komponenten einen ausreichenden Anteil der Varianz erklären, um eine aussagekräftige visuelle Darstellung der Struktur von Fällen und Variablen zu ermöglichen.

Sie können sehen, welche Ereignisse im Raum nahe beieinander liegen. Wenn dies zutrifft, kann dies darauf hindeuten, dass Athleten, die bei einem Ereignis gut sind, wahrscheinlich auch bei den anderen proximalen Ereignissen gut sind. Alternativ können Sie den Plot verwenden, um zu sehen, welche Ereignisse entfernt sind. Zum Beispiel scheint Speer ein Ausreißer und ein Hauptereignis zu sein, das die zweite Hauptkomponente definiert. Vielleicht ist ein anderer Athlet gut im Speerfahren als bei den meisten anderen Veranstaltungen.

Natürlich könnte mehr über die inhaltliche Auslegung gesagt werden.

Jeromy Anglim
quelle
2
Siehe auch: Was sind die vier Achsen im PCA-Biplot?
Amöbe sagt Reinstate Monica
2
Siehe auch: Positionieren der Pfeile auf einem PCA-Biplot .
Amöbe sagt Reinstate Monica