Wie werden PCA-Ladungen interpretiert?

13

Beim Lesen über PCA bin ich auf die folgende Erklärung gestoßen:

Angenommen, wir haben einen Datensatz, in dem jeder Datenpunkt die Ergebnisse eines einzelnen Schülers in einem Mathematiktest, einem Physiktest, einem Leseverständnistest und einem Vokabeltest darstellt.

Wir finden die ersten beiden Hauptkomponenten, die 90% der Variabilität in den Daten erfassen und deren Beladungen interpretieren. Wir schließen daraus, dass die erste Hauptkomponente die allgemeine akademische Fähigkeit darstellt und die zweite einen Kontrast zwischen quantitativer Fähigkeit und verbaler Fähigkeit darstellt.

Der Text besagt, dass die PC1- und PC2-Ladungen für PC1 (0.5,0.5,0.5,0.5) und für PC2 , und bietet die folgende Erklärung:(0.5,0.5,0.5,0.5)

[D] Die erste Komponente ist proportional zur Durchschnittsbewertung, und die zweite Komponente misst die Differenz zwischen dem ersten Bewertungspaar und dem zweiten Bewertungspaar.

Ich kann nicht verstehen, was diese Erklärung bedeutet.

Priyanka
quelle
7
Irgendwie geht die Antwort von @ ttnphns auf viele mathematische Details ein, aber ich denke, die ursprüngliche Frage war wirklich einfach: Warum bedeutet der Ladungsvektor für PC1 von (0,5, 0,5, 0,5, 0,5), dass die erste Komponente "proportional zur durchschnittlichen Punktzahl ist "? Nun, die Antwort ist, dass die Belastungen [proportional zu den] Koeffizienten in linearer Kombination der ursprünglichen Variablen sind, aus denen PC1 besteht. Ihr erster PC1 ist also die Summe aller vier Variablen mal 0,5. Das heißt, es ist proportional zum Durchschnitt der vier Variablen. Und ähnlich mit PC2. Ich denke, das beantwortet die ursprüngliche Frage.
Amöbe sagt Reinstate Monica
@amoeba - Weißt du, wie schwer es ist, eine so einfache Erklärung für das Laden zu finden? Irgendwie ist überall ein Schluck Jargon über mich verteilt, bevor ich mich entscheide, mit der nächsten Erklärung auf Google fortzufahren. Vielen Dank!
MiloMinderbinder

Antworten:

13

Belastungen (die nicht mit Eigenvektoren verwechselt werden dürfen) haben folgende Eigenschaften:

  1. Ihre Quadratsummen innerhalb jeder Komponente sind die Eigenwerte (Varianzen der Komponenten).
  2. Belastungen sind Koeffizienten in linearer Kombination, die eine Variable durch die (standardisierten) Komponenten vorhersagen.

Sie haben 2 erste PCs aus 4 extrahiert. Matrix der Ladungen und der Eigenwerte:A

A (loadings)
         PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
    1.0000000000  1.0000000000

In diesem Fall sind beide Eigenwerte gleich. Es ist ein seltener Fall in der realen Welt, es heißt, dass PC1 und PC2 die gleiche erklärende "Stärke" haben.

Angenommen, Sie haben auch die Komponentenwerte, Nx2Matrix , berechnet und diese innerhalb jeder Spalte z-standardisiert (Mittelwert = 0, st. Dev. = 1). Dann (als Punkt 2 oben erklärt), X = C A ' . Aber, da Sie nur 2 PCs von 4 links (dir fehlt 2 weitere Spalten in A ) die Daten wiederhergestellt Werte X nicht genau sind , - es ist ein Fehler (wenn Eigenwerte 3, 4 nicht Null).CX^=CAAX^

IN ORDNUNG. Mit welchen Koeffizienten lassen sich Komponenten anhand von Variablen vorhersagen ? Wenn voll wäre , wären diese eindeutig B = ( A - 1 ) ' . Mit einer nicht quadratischen Ladematrix können wir sie als B = berechnenA4x4B=(A1) , wobeiB=Adiag(eigenvalues)1=(A+)diag(eigenvalues)ist die quadratische Diagonalmatrix mit den Eigenwerten auf ihrer Diagonale, und der +hochgestellte Index bezeichnet die Pseudoinverse. In deinem Fall:

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
    PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

Wenn also eine Matrix ursprünglich zentrierter Variablen ist (oder standardisierte Variablen, wenn Sie PCA auf der Grundlage von Korrelationen und nicht von Kovarianzen durchführen), dann ist C = X B ; C sind standardisierte Hauptkomponentenbewertungen. Welches in Ihrem Beispiel ist:XNx4C=XBC

PC1 = 0,5 · X1 + 0,5 · X2 + 0,5 · X3 + 0,5 · X4 ~ (X1 + X2 + X3 + X4) / 4

"Die erste Komponente ist proportional zur durchschnittlichen Punktzahl"

PC2 = 0,5 · X1 + 0,5 · X2 - 0,5 · X3 - 0,5 · X4 = (0,5 · X1 + 0,5 · X2) - (0,5 · X3 + 0,5 · X4)

Die zweite Komponente misst die Differenz zwischen dem ersten Bewertungspaar und dem zweiten Bewertungspaar.

In diesem Beispiel schien es, dass , aber im Allgemeinen sind sie unterschiedlich.B=A


Anmerkung : Die obige Formel für die Koeffizienten zur Berechnung der Komponentenwerte lautet: , ist äquivalent zu B = R - 1 A , mit RB=Adiag(eigenvalues)1B=R1ARist die Kovarianz- (oder Korrelations-) Matrix von Variablen. Die letztere Formel stammt direkt aus der linearen Regressionstheorie. Die beiden Formeln sind nur im PCA-Kontext äquivalent. Bei der Faktoranalyse handelt es sich nicht um Faktorbewertungen, und um Faktorbewertungen (die in FA immer ungefähr sind) zu berechnen, sollte man sich auf die zweite Formel verlassen.


Verwandte Antworten von mir:

Weitere Informationen zu Ladevorgängen im Vergleich zu Eigenvektoren .

Wie Hauptkomponenten-Scores und Faktor-Scores berechnet werden .

ttnphns
quelle
2
Wenn 2 von 4 Komponenten 90% der Variabilität ausmachen, wie kommt es, dass ihre Eigenwerte 2 ergeben?
Nick Cox
Nick, ich glaube das ist eine Frage an das OP. Er hat weder die Daten noch die Kovarianz- / Korrelationsmatrix angegeben. Alles, was wir von ihm hatten, ist eine (ziemlich unrealistische) Ladematrix von 2 ersten PCs.
TTNPHNS
3
4×44150%90%