Beim Lesen über PCA bin ich auf die folgende Erklärung gestoßen:
Angenommen, wir haben einen Datensatz, in dem jeder Datenpunkt die Ergebnisse eines einzelnen Schülers in einem Mathematiktest, einem Physiktest, einem Leseverständnistest und einem Vokabeltest darstellt.
Wir finden die ersten beiden Hauptkomponenten, die 90% der Variabilität in den Daten erfassen und deren Beladungen interpretieren. Wir schließen daraus, dass die erste Hauptkomponente die allgemeine akademische Fähigkeit darstellt und die zweite einen Kontrast zwischen quantitativer Fähigkeit und verbaler Fähigkeit darstellt.
Der Text besagt, dass die PC1- und PC2-Ladungen für PC1 und für PC2 , und bietet die folgende Erklärung:
[D] Die erste Komponente ist proportional zur Durchschnittsbewertung, und die zweite Komponente misst die Differenz zwischen dem ersten Bewertungspaar und dem zweiten Bewertungspaar.
Ich kann nicht verstehen, was diese Erklärung bedeutet.
Antworten:
Belastungen (die nicht mit Eigenvektoren verwechselt werden dürfen) haben folgende Eigenschaften:
Sie haben 2 erste PCs aus 4 extrahiert. Matrix der Ladungen und der Eigenwerte:A
In diesem Fall sind beide Eigenwerte gleich. Es ist ein seltener Fall in der realen Welt, es heißt, dass PC1 und PC2 die gleiche erklärende "Stärke" haben.
Angenommen, Sie haben auch die Komponentenwerte,C X^=CA′ A X^
Nx2
Matrix , berechnet und diese innerhalb jeder Spalte z-standardisiert (Mittelwert = 0, st. Dev. = 1). Dann (als Punkt 2 oben erklärt), X = C A ' . Aber, da Sie nur 2 PCs von 4 links (dir fehlt 2 weitere Spalten in A ) die Daten wiederhergestellt Werte X nicht genau sind , - es ist ein Fehler (wenn Eigenwerte 3, 4 nicht Null).IN ORDNUNG. Mit welchen Koeffizienten lassen sich Komponenten anhand von Variablen vorhersagen ? Wenn voll wäre , wären diese eindeutig B = ( A - 1 ) ' . Mit einer nicht quadratischen Ladematrix können wir sie als B = berechnenA B=(A−1)′ , wobeiB=A⋅diag(eigenvalues)−1=(A+)′
4x4
diag(eigenvalues)
ist die quadratische Diagonalmatrix mit den Eigenwerten auf ihrer Diagonale, und der+
hochgestellte Index bezeichnet die Pseudoinverse. In deinem Fall:Wenn also eine Matrix ursprünglich zentrierter Variablen ist (oder standardisierte Variablen, wenn Sie PCA auf der Grundlage von Korrelationen und nicht von Kovarianzen durchführen), dann ist C = X B ; C sind standardisierte Hauptkomponentenbewertungen. Welches in Ihrem Beispiel ist:X C=XB C
Nx4
In diesem Beispiel schien es, dass , aber im Allgemeinen sind sie unterschiedlich.B=A
Anmerkung : Die obige Formel für die Koeffizienten zur Berechnung der Komponentenwerte lautet: , ist äquivalent zu B = R - 1 A , mit RB=A⋅diag(eigenvalues)−1 B=R−1A R ist die Kovarianz- (oder Korrelations-) Matrix von Variablen. Die letztere Formel stammt direkt aus der linearen Regressionstheorie. Die beiden Formeln sind nur im PCA-Kontext äquivalent. Bei der Faktoranalyse handelt es sich nicht um Faktorbewertungen, und um Faktorbewertungen (die in FA immer ungefähr sind) zu berechnen, sollte man sich auf die zweite Formel verlassen.
Verwandte Antworten von mir:
Weitere Informationen zu Ladevorgängen im Vergleich zu Eigenvektoren .
Wie Hauptkomponenten-Scores und Faktor-Scores berechnet werden .
quelle