Belastungen gegen Eigenvektoren in PCA: Wann sollte der eine oder andere verwendet werden?

67

In der Hauptkomponentenanalyse (PCA) erhalten wir Eigenvektoren (Einheitsvektoren) und Eigenwerte. Definieren wir nun Ladungen als

Ladungen=EigenvektorenEigenwerte.

Ich weiß, dass Eigenvektoren nur Richtungen sind und Belastungen (wie oben definiert) auch eine Varianz entlang dieser Richtungen beinhalten. Aber zum besseren Verständnis möchte ich wissen, wo ich Ladungen anstelle von Eigenvektoren verwenden soll? Ein Beispiel wäre perfekt!

Ich habe im Allgemeinen nur Leute gesehen, die Eigenvektoren benutzen, aber gelegentlich benutzen sie Ladungen (wie oben definiert), und dann habe ich das Gefühl, dass ich den Unterschied nicht wirklich verstehe.

user2696565
quelle

Antworten:

66

In PCA teilen Sie die Kovarianz- (oder Korrelations-) Matrix in Skalenteil (Eigenwerte) und Richtungsteil (Eigenvektoren) auf. Sie können dann Eigenvektoren mit der folgenden Skala ausstatten : Ladungen . Somit werden die Belastungen in ihrer Größe mit den beobachteten Kovarianzen / Korrelationen zwischen den Variablen vergleichbar, da das, was aus der Kovariation der Variablen gezogen wurde, nun in Form der Kovariation zwischen den Variablen und den Hauptkomponenten zurückkehrt. Tatsächlich Beladungen sind die Kovarianzen / Korrelationen zwischen den ursprünglichen und den Variablen Einheit skalierten Komponenten . Diese Antwort zeigt geometrisch, was Belastungen sind und welche Koeffizienten Komponenten mit Variablen in der PCA- oder Faktoranalyse verknüpfen.

Ladungen :

  1. Hilft Ihnen bei der Interpretation der wichtigsten Komponenten oder Faktoren. Weil sie die linearen Kombinationsgewichte (Koeffizienten) sind, durch die in Einheiten skalierte Komponenten oder Faktoren eine Variable definieren oder "laden" .

    (Eigenvektor ist nur ein Koeffizient der orthogonalen Transformation oder Projektion, er hat innerhalb seines Wertes keine "Last". "Last" ist (Information über die Größe der) Varianz, Größe. PCs werden extrahiert, um die Varianz der Variablen zu erklären. Eigenwerte sind die Varianzen von (= erklärt durch) PCs. Wenn wir den Eigenvektor mit der Wurzel des eivenwerts multiplizieren, "laden" wir den nackten Koeffizienten um den Betrag der Varianz. Auf diese Weise machen wir den Koeffizienten zum Maß der Assoziation , Variabilität.)

  2. Ladungen werden danach manchmal "gedreht" (z. B. varimax), um die Interpretierbarkeit zu erleichtern ( siehe auch );

  3. Es sind Ladungen, die die ursprüngliche Kovarianz- / Korrelationsmatrix "wiederherstellen" (siehe auch diesen Thread , in dem die Nuancen von PCA und FA in dieser Hinsicht diskutiert werden);

  4. Während Sie in PCA Werte von Komponenten sowohl aus Eigenvektoren als auch aus Lasten berechnen können, berechnen Sie in der Faktoranalyse Faktorwerte aus Lasten .

  5. Und vor allem ist die Ladematrix informativ: Ihre vertikalen Quadratsummen sind die Eigenwerte, die Varianzen der Komponenten, und ihre horizontalen Quadratsummen sind Teile der Varianzen der Variablen, die von den Komponenten "erklärt" werden.

  6. Eine neu skalierte oder standardisierte Belastung ist die Belastung geteilt durch die st der Variablen. Abweichung; es ist die Korrelation. (Handelt es sich bei Ihrer PCA um eine korrelationsbasierte PCA, ist das Laden gleich der neu skalierten, da die korrelationsbasierte PCA die PCA für standardisierte Variablen ist.) Das neu skalierte Laden im Quadrat hat die Bedeutung des Beitrags eines pr. Komponente in eine Variable; Wenn es hoch ist (nahe 1), wird die Variable allein durch diese Komponente gut definiert.

Ein Beispiel für Berechnungen in PCA und FA für Sie getan zu sehen .

Eigenvektoren sind Ladungen im Einheitsmaßstab. und sie sind die Koeffizienten (die Cosinus) der orthogonalen Transformation (Rotation) von Variablen in Hauptkomponenten oder umgekehrt. Daher ist es einfach, die Werte der Komponenten (nicht standardisiert) damit zu berechnen. Außerdem ist ihre Verwendung begrenzt. Der quadrierte Eigenvektorwert hat die Bedeutung des Beitrags einer Variablen zu einem pr. Komponente; Wenn es hoch ist (nahe 1), ist die Komponente allein durch diese Variable gut definiert.

Obwohl Eigenvektoren und Ladungen einfach zwei verschiedene Möglichkeiten sind, die Koordinaten der gleichen Punkte zu normalisieren, die Spalten (Variablen) der Daten in einem Biplot darstellen , ist es keine gute Idee, die beiden Begriffe zu mischen. Diese Antwort erklärte, warum. Siehe auch .

ttnphns
quelle
3
eichGenveinlues
1
Randnotiz: In der Chemometrie ist die Berechnung von Ergebnissen aus Originaldaten von großer Bedeutung, da viele Vorhersagemodelle die PCA-Rotation (!) Für die Vorverarbeitung verwenden. Daher ist die eingeschränkte Verwendung von Ladungen IMHO unsere Hauptverwendung für PCA.
Glaube
2
@cbeleites, Es ist nicht nur möglich, dass PCA / FA-Terminologiekonventionen in verschiedenen Bereichen (oder in verschiedenen Software oder Büchern) unterschiedlich sind - ich gebe an, dass sie sich unterscheiden. In der Psychologie und im menschlichen Verhalten sind "Belastungen" normalerweise das, was ich mit dem Namen bezeichnet habe (Belastungen sind in diesen Bereichen sehr wichtig, da die Interpretation der Latenzen aussteht, während die Punktzahlen möglicherweise verkleinert, standardisiert werden und niemandem etwas ausmacht). Andererseits haben viele RBenutzer auf dieser Site die PCA-Eigenvektoren als "Ladungen" bezeichnet, die möglicherweise aus der Funktionsdokumentation stammen.
TTNPHNS
(Forts.) Das Schlimmste ist, dass das Wort "Ladungen" in anderen Techniken (LDA, kanonische Korrelationen usw.) nicht genau in der gleichen Bedeutung wie in PCA verwendet wird. Das Wort selbst ist also kompromittiert. Ich stimme @amoeba zu, der annimmt, dass es ganz weggelassen und durch statistisch genaue Begriffe wie "Korrelationen" oder "Koeffizienten" ersetzt werden soll. Andererseits scheinen sich "Eigenvektoren" auf die svd / Eigen-Zerlegung und einige Methoden des Dimmens zu beschränken. Reduktion führen Sie diese überhaupt nicht oder in ihrer klassischen Form.
TTNPHNS
1
Du musst verwechseln. Wenn Sie PC-Scores mithilfe von Ladevorgängen richtig berechnen, erhalten Sie einfach standardisierte Komponenten. Sie berechnen diese Werte nicht mit derselben Formel wie mit Eigenvektoren. Sie sollten stattdessen die Formeln verwenden, die im Link zu meiner Nummer 4 beschrieben sind.
TTNPHNS
3

Es scheint viel Verwirrung über Ladungen, Koeffizienten und Eigenvektoren zu geben. Die Wortladungen stammen aus der Faktorenanalyse und beziehen sich auf Koeffizienten der Regression der Datenmatrix auf die Faktoren. Sie sind nicht die Koeffizienten, die die Faktoren definieren. Siehe zum Beispiel Mardia, Bibby und Kent oder andere multivariate Statistiklehrbücher.

In den letzten Jahren wurden die Wortladungen verwendet, um die PC-Koeffizienten anzuzeigen. Hier scheint es, dass es verwendet wird, um die Koeffizienten, multipliziert mit dem Quadrat der Eigenwerte der Matrix, anzugeben. Dies sind keine üblicherweise in PCA verwendeten Mengen. Die Hauptkomponenten sind definiert als die Summe der mit Einheitsnormkoeffizienten gewichteten Variablen. Auf diese Weise haben die PCs eine Norm, die dem entsprechenden Eigenwert entspricht, der wiederum der von der Komponente erklärten Varianz entspricht.

In der Faktorenanalyse müssen die Faktoren eine Einheitennorm haben. Aber FA und PCA sind völlig unterschiedlich. Das Drehen des PC-Koeffizienten wird sehr selten durchgeführt, da dadurch die Optimalität der Komponenten beeinträchtigt wird.

In FA sind die Faktoren nicht eindeutig definiert und können auf verschiedene Arten geschätzt werden. Die wichtigen Größen sind die Ladungen (die wahren) und die Kommunalitäten, mit denen die Struktur der Kovarianzmatrix untersucht wird. PCA oder PLS sollten verwendet werden, um Komponenten abzuschätzen.

Marco Stamazza
quelle
2
Diese Antwort, die in bestimmten Aspekten richtig ist (+1), übersieht, dass sowohl FA als auch PCA als Vorhersage von manifesten Variablen durch die Faktoren / Komponenten (letztere in Einheiten skaliert) gesehen werden können und vergleichbar sind (obwohl sie unterschiedlich sind). Belastungen sind die Koeffizienten dieser Vorhersage. Daher werden Ladungen verwendet und sind gültige Begriffe, die sowohl in FA- als auch in PCA-Feldern dasselbe bedeuten.
TTNPHNS
3
Es ist auch schade, dass einige Quellen (insbesondere die R-Dokumentation) Eigenvektorkoeffizienten achtlos als "Belastungen" bezeichnen - sie enthalten keine Belastung .
TTNPHNS
Es ist nur so, dass FA und PCA ein anderes Modell schätzen. In FA sind die Fehler in PCA orthogonal und nicht. Ich sehe keinen Sinn darin, die Ergebnisse zu vergleichen, es sei denn, man fischt nach einem Modell. Beladungen sind die Spalten der Matrix , Ldie verwendet wird , um die Kovarianzmatrix als zu schreiben , S = LL' + Cwo Ceine diagonale Matrix ist . Sie haben nichts mit den Koeffizienten der PCs zu tun.
Marco Stamazza
they have nothing to do with the PCs' coefficientsWir berechnen Ladungen in PCA wie in FA. Die Modelle sind unterschiedlich, aber die Bedeutung der Ladungen ist bei beiden Methoden ähnlich.
TTNPHNS
0
In Factor Analysis (using PCA for extraction), we get orthonormal eigen vectors (unit vectors) and corresponding eigenvalues. Now, loadings are defined as 

Belastungen = Orthonormale Eigenvektoren⋅ Quadratwurzel von (Absolute Eigenwerte) Hier geben orthonormale Eigenvektoren (dh der Begriff Orthonormale Eigenvektoren) eine Richtung und der Begriff Quadratwurzel von (Absolute Eigenwerte) den Wert an.

Normalerweise sagt man, dass die Zeichen in Ladungen nicht wichtig sind, aber ihre Größe ist wichtig. Wenn wir jedoch die Richtung eines Eigenvektors umkehren (wobei wir das Vorzeichen anderer Eigenvektoren beibehalten), werden die Faktorwerte geändert. Daher wird die weitere Analyse erheblich beeinflusst.

Ich konnte bisher keine zufriedenstellende Lösung für diese Unklarheit finden.

user173611
quelle
0

In dieser Angelegenheit scheint es einige Verwirrung zu geben, daher werde ich einige Beobachtungen machen und einen Hinweis darauf geben, wo in der Literatur eine ausgezeichnete Antwort zu finden ist.

Zum einen PCA und Faktorenanalyse (FA) sind verwandt. Im Allgemeinen sind Hauptkomponenten per Definition orthogonal, Faktoren - die analoge Entität in FA - nicht. Einfach ausgedrückt, überspannen Hauptkomponenten den Faktorraum auf eine willkürliche, aber nicht unbedingt nützliche Weise, da sie aus einer reinen Eigenanalyse der Daten abgeleitet werden. Faktoren hingegen repräsentieren reale Entitäten, die nur zufällig orthogonal (dh unkorreliert oder unabhängig) sind.

Sagen wir , wir nehmen s Beobachtungen von jedem l Themen. Diese können in einer Datenmatrix D mit s Zeilen und l Spalten angeordnet werden. D kann in eine zerlegt werden , Score - Matrix S und eine Ladematrix L , so dass D = SL . S hat s Zeilen und L hat l Spalten, wobei die zweite Dimension die Anzahl der Faktoren n ist . Der Zweck der Faktoranalyse besteht darin, D zu zerlegenauf solche Weise, dass die zugrunde liegenden Bewertungen und Faktoren aufgedeckt werden. Die Belastungen in L geben den Anteil jeder Punktzahl an, aus dem die Beobachtungen in D bestehen .

In PCA hat L die Eigenvektoren der Korrelations- oder Kovarianzmatrix von D als seine Spalten. Diese sind herkömmlicherweise in absteigender Reihenfolge der entsprechenden Eigenwerte angeordnet. Der Wert von n - dh die Anzahl der signifikanten Hauptkomponenten, die in der Analyse beibehalten werden sollen, und damit die Anzahl der Zeilen von L - wird typischerweise durch Verwendung eines Geröllplots der Eigenwerte oder einer von zahlreichen anderen Methoden bestimmt, die in zu finden sind die Literatur. Die Spalten von S in PCA bilden die n abstrakten Hauptkomponenten selbst. Der Wert von n ist die zugrunde liegende Dimension des Datensatzes.

Ziel der Faktorenanalyse ist es, die abstrakten Komponenten mit Hilfe einer Transformationsmatrix T in sinnvolle Faktoren zu transformieren, so dass D = STT -1 L ist . ( ST ) ist die transformierte Punktematrix und ( T - 1 L ) ist die transformierte Ladematrix.

Die obige Erklärung folgt grob der Notation von Edmund R. Malinowski aus seiner ausgezeichneten Faktoranalyse in der Chemie . Ich empfehle die Eröffnungskapitel als Einführung in das Thema.

Matt Wenham
quelle
Diese Antwort scheint mehrere Probleme zu haben. Überprüfen Sie zuerst Ihre Formeln, bitte, sie sind nicht korrekt. Zweitens versuchen Sie, Unterschiede zwischen FA und PCA zu diskutieren. Wir haben einen separaten langen Thread zum Thema CV, während es im aktuellen Thread um Ladevorgänge im Vergleich zu Eigenvektoren geht, sodass die Antwort falsch ist. Drittens ist Ihr Bild von FA verzerrt, insbesondere in Formulierungen wie "Der Zweck von FA besteht darin, D zu zerlegen" oder "Das Ziel von FA besteht darin, die abstrakten Komponenten in sinnvolle Faktoren umzuwandeln".
TTNPHNS
Ich betrachte das Material, das ich gepostet habe, als relevant für die Diskussion in diesem Thread und es bietet eine Erklärung für die Beziehung zwischen Ladungen und Eigenvektoren.
Matt Wenham
Meine Forschung zu diesem Thema ist in diesem Artikel
Matt Wenham
OK, vielleicht ist Ihr Konto noch gültig - ich kann nicht sagen, dass Sie die von Ihnen angebotenen Quellen nicht lesen. Ich möchte jedoch bemerken, dass die "Beziehung" zwischen Ladungen und Eigenvektoren in PCA alle in ihrer Formel in die Frage gestellt ist; es gibt also kaum etwas zu "erklären" (erklärt sollte der unterschiedliche Nutzen von ihnen sein). Eine andere bemerkenswerte Sache ist, dass es beim Q in erster Linie um PCA geht, nicht um FA. Und am Ende befasst sich nicht jede FA-Methode mit Eigenvektoren, während es sich notwendigerweise um Ladungen handelt.
TTNPHNS
Entschuldigung, ich glaube nicht, dass es eine öffentlich verfügbare Version meines Papiers gibt, obwohl Sie mit einer zweiwöchigen Testversion über Deepdyve.com Zugang erhalten. Das erste Kapitel von Malinowskis Buch ist über den obigen Link verfügbar. Dies deckt die Grundlagen ab, ohne die Eigenanalyse zu erwähnen. Ich muss zugeben, dass ich nicht wusste, dass die Faktoranalyse ohne Eigenanalyse durchgeführt werden kann, wie es die von mir verwendete Variante - die Zielfaktoranalyse - tut.
Matt Wenham
-1

Ich bin ein bisschen verwirrt von diesen Namen und habe im Buch "Statistical Methods in the Atmospherical Science" gesucht, und es gab mir eine Zusammenfassung der verschiedenen Terminologie von PCA, hier sind die Screenshots im Buch, ich hoffe, es wird helfen.

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben

D. Zhang
quelle