In PCA teilen Sie die Kovarianz- (oder Korrelations-) Matrix in Skalenteil (Eigenwerte) und Richtungsteil (Eigenvektoren) auf. Sie können dann Eigenvektoren mit der folgenden Skala ausstatten : Ladungen . Somit werden die Belastungen in ihrer Größe mit den beobachteten Kovarianzen / Korrelationen zwischen den Variablen vergleichbar, da das, was aus der Kovariation der Variablen gezogen wurde, nun in Form der Kovariation zwischen den Variablen und den Hauptkomponenten zurückkehrt. Tatsächlich Beladungen sind die Kovarianzen / Korrelationen zwischen den ursprünglichen und den Variablen Einheit skalierten Komponenten . Diese Antwort zeigt geometrisch, was Belastungen sind und welche Koeffizienten Komponenten mit Variablen in der PCA- oder Faktoranalyse verknüpfen.
Ladungen :
Hilft Ihnen bei der Interpretation der wichtigsten Komponenten oder Faktoren. Weil sie die linearen Kombinationsgewichte (Koeffizienten) sind, durch die in Einheiten skalierte Komponenten oder Faktoren eine Variable definieren oder "laden" .
(Eigenvektor ist nur ein Koeffizient der orthogonalen Transformation oder Projektion, er hat innerhalb seines Wertes keine "Last". "Last" ist (Information über die Größe der) Varianz, Größe. PCs werden extrahiert, um die Varianz der Variablen zu erklären. Eigenwerte sind die Varianzen von (= erklärt durch) PCs. Wenn wir den Eigenvektor mit der Wurzel des eivenwerts multiplizieren, "laden" wir den nackten Koeffizienten um den Betrag der Varianz. Auf diese Weise machen wir den Koeffizienten zum Maß der Assoziation , Variabilität.)
Ladungen werden danach manchmal "gedreht" (z. B. varimax), um die Interpretierbarkeit zu erleichtern ( siehe auch );
Es sind Ladungen, die die ursprüngliche Kovarianz- / Korrelationsmatrix "wiederherstellen" (siehe auch diesen Thread , in dem die Nuancen von PCA und FA in dieser Hinsicht diskutiert werden);
Während Sie in PCA Werte von Komponenten sowohl aus Eigenvektoren als auch aus Lasten berechnen können, berechnen Sie in der Faktoranalyse Faktorwerte aus Lasten .
Und vor allem ist die Ladematrix informativ: Ihre vertikalen Quadratsummen sind die Eigenwerte, die Varianzen der Komponenten, und ihre horizontalen Quadratsummen sind Teile der Varianzen der Variablen, die von den Komponenten "erklärt" werden.
Eine neu skalierte oder standardisierte Belastung ist die Belastung geteilt durch die st der Variablen. Abweichung; es ist die Korrelation. (Handelt es sich bei Ihrer PCA um eine korrelationsbasierte PCA, ist das Laden gleich der neu skalierten, da die korrelationsbasierte PCA die PCA für standardisierte Variablen ist.) Das neu skalierte Laden im Quadrat hat die Bedeutung des Beitrags eines pr. Komponente in eine Variable; Wenn es hoch ist (nahe 1), wird die Variable allein durch diese Komponente gut definiert.
Ein Beispiel für Berechnungen in PCA und FA für Sie getan zu sehen .
Eigenvektoren sind Ladungen im Einheitsmaßstab. und sie sind die Koeffizienten (die Cosinus) der orthogonalen Transformation (Rotation) von Variablen in Hauptkomponenten oder umgekehrt. Daher ist es einfach, die Werte der Komponenten (nicht standardisiert) damit zu berechnen. Außerdem ist ihre Verwendung begrenzt. Der quadrierte Eigenvektorwert hat die Bedeutung des Beitrags einer Variablen zu einem pr. Komponente; Wenn es hoch ist (nahe 1), ist die Komponente allein durch diese Variable gut definiert.
Obwohl Eigenvektoren und Ladungen einfach zwei verschiedene Möglichkeiten sind, die Koordinaten der gleichen Punkte zu normalisieren, die Spalten (Variablen) der Daten in einem Biplot darstellen , ist es keine gute Idee, die beiden Begriffe zu mischen. Diese Antwort erklärte, warum. Siehe auch .
R
Benutzer auf dieser Site die PCA-Eigenvektoren als "Ladungen" bezeichnet, die möglicherweise aus der Funktionsdokumentation stammen.Es scheint viel Verwirrung über Ladungen, Koeffizienten und Eigenvektoren zu geben. Die Wortladungen stammen aus der Faktorenanalyse und beziehen sich auf Koeffizienten der Regression der Datenmatrix auf die Faktoren. Sie sind nicht die Koeffizienten, die die Faktoren definieren. Siehe zum Beispiel Mardia, Bibby und Kent oder andere multivariate Statistiklehrbücher.
In den letzten Jahren wurden die Wortladungen verwendet, um die PC-Koeffizienten anzuzeigen. Hier scheint es, dass es verwendet wird, um die Koeffizienten, multipliziert mit dem Quadrat der Eigenwerte der Matrix, anzugeben. Dies sind keine üblicherweise in PCA verwendeten Mengen. Die Hauptkomponenten sind definiert als die Summe der mit Einheitsnormkoeffizienten gewichteten Variablen. Auf diese Weise haben die PCs eine Norm, die dem entsprechenden Eigenwert entspricht, der wiederum der von der Komponente erklärten Varianz entspricht.
In der Faktorenanalyse müssen die Faktoren eine Einheitennorm haben. Aber FA und PCA sind völlig unterschiedlich. Das Drehen des PC-Koeffizienten wird sehr selten durchgeführt, da dadurch die Optimalität der Komponenten beeinträchtigt wird.
In FA sind die Faktoren nicht eindeutig definiert und können auf verschiedene Arten geschätzt werden. Die wichtigen Größen sind die Ladungen (die wahren) und die Kommunalitäten, mit denen die Struktur der Kovarianzmatrix untersucht wird. PCA oder PLS sollten verwendet werden, um Komponenten abzuschätzen.
quelle
L
die verwendet wird , um die Kovarianzmatrix als zu schreiben ,S = LL' + C
woC
eine diagonale Matrix ist . Sie haben nichts mit den Koeffizienten der PCs zu tun.they have nothing to do with the PCs' coefficients
Wir berechnen Ladungen in PCA wie in FA. Die Modelle sind unterschiedlich, aber die Bedeutung der Ladungen ist bei beiden Methoden ähnlich.Belastungen = Orthonormale Eigenvektoren⋅ Quadratwurzel von (Absolute Eigenwerte) Hier geben orthonormale Eigenvektoren (dh der Begriff Orthonormale Eigenvektoren) eine Richtung und der Begriff Quadratwurzel von (Absolute Eigenwerte) den Wert an.
Normalerweise sagt man, dass die Zeichen in Ladungen nicht wichtig sind, aber ihre Größe ist wichtig. Wenn wir jedoch die Richtung eines Eigenvektors umkehren (wobei wir das Vorzeichen anderer Eigenvektoren beibehalten), werden die Faktorwerte geändert. Daher wird die weitere Analyse erheblich beeinflusst.
Ich konnte bisher keine zufriedenstellende Lösung für diese Unklarheit finden.
quelle
In dieser Angelegenheit scheint es einige Verwirrung zu geben, daher werde ich einige Beobachtungen machen und einen Hinweis darauf geben, wo in der Literatur eine ausgezeichnete Antwort zu finden ist.
Zum einen PCA und Faktorenanalyse (FA) sind verwandt. Im Allgemeinen sind Hauptkomponenten per Definition orthogonal, Faktoren - die analoge Entität in FA - nicht. Einfach ausgedrückt, überspannen Hauptkomponenten den Faktorraum auf eine willkürliche, aber nicht unbedingt nützliche Weise, da sie aus einer reinen Eigenanalyse der Daten abgeleitet werden. Faktoren hingegen repräsentieren reale Entitäten, die nur zufällig orthogonal (dh unkorreliert oder unabhängig) sind.
Sagen wir , wir nehmen s Beobachtungen von jedem l Themen. Diese können in einer Datenmatrix D mit s Zeilen und l Spalten angeordnet werden. D kann in eine zerlegt werden , Score - Matrix S und eine Ladematrix L , so dass D = SL . S hat s Zeilen und L hat l Spalten, wobei die zweite Dimension die Anzahl der Faktoren n ist . Der Zweck der Faktoranalyse besteht darin, D zu zerlegenauf solche Weise, dass die zugrunde liegenden Bewertungen und Faktoren aufgedeckt werden. Die Belastungen in L geben den Anteil jeder Punktzahl an, aus dem die Beobachtungen in D bestehen .
In PCA hat L die Eigenvektoren der Korrelations- oder Kovarianzmatrix von D als seine Spalten. Diese sind herkömmlicherweise in absteigender Reihenfolge der entsprechenden Eigenwerte angeordnet. Der Wert von n - dh die Anzahl der signifikanten Hauptkomponenten, die in der Analyse beibehalten werden sollen, und damit die Anzahl der Zeilen von L - wird typischerweise durch Verwendung eines Geröllplots der Eigenwerte oder einer von zahlreichen anderen Methoden bestimmt, die in zu finden sind die Literatur. Die Spalten von S in PCA bilden die n abstrakten Hauptkomponenten selbst. Der Wert von n ist die zugrunde liegende Dimension des Datensatzes.
Ziel der Faktorenanalyse ist es, die abstrakten Komponenten mit Hilfe einer Transformationsmatrix T in sinnvolle Faktoren zu transformieren, so dass D = STT -1 L ist . ( ST ) ist die transformierte Punktematrix und ( T - 1 L ) ist die transformierte Ladematrix.
Die obige Erklärung folgt grob der Notation von Edmund R. Malinowski aus seiner ausgezeichneten Faktoranalyse in der Chemie . Ich empfehle die Eröffnungskapitel als Einführung in das Thema.
quelle
Ich bin ein bisschen verwirrt von diesen Namen und habe im Buch "Statistical Methods in the Atmospherical Science" gesucht, und es gab mir eine Zusammenfassung der verschiedenen Terminologie von PCA, hier sind die Screenshots im Buch, ich hoffe, es wird helfen.
quelle