Was ist das richtige Assoziationsmaß einer Variablen mit einer PCA-Komponente (auf einem Biplot / Ladeplot)?

Erläuterung eines Belastungsplots der PCA- oder Faktoranalyse.

Das Ladediagramm zeigt Variablen als Punkte im Bereich der Hauptkomponenten (oder Faktoren). Die Koordinaten der Variablen sind normalerweise die Ladungen. (Wenn Sie das Ladediagramm ordnungsgemäß mit dem entsprechenden Streudiagramm von Datenfällen im selben Komponentenbereich kombinieren, ist dies ein Biplot.)

Lassen Sie uns 3 irgendwie korrelierten Variablen, , , . Wir zentrieren sie und führen PCA durch , wobei wir zwei der ersten Hauptkomponenten aus drei extrahieren: und . Wir verwenden Ladungen als Koordinaten, um das unten stehende Ladediagramm zu erstellen. Ladungen sind die nicht standardisierten Eigenvektorelemente, dh Eigenvektoren, die mit entsprechenden Komponentenvarianzen oder Eigenwerten ausgestattet sind. $V$ $W$ $U$ $F_1$ $F_2$

Bildbeschreibung hier eingeben

Ladeplot ist das Flugzeug auf dem Bild. Lassen Sie uns nur Variable berücksichtigen . Der Pfeil, der gewöhnlich auf einer Ladefläche gezeichnet ist, ist hier mit ; Die Koordinaten , sind die Ladungen von mit bzw. . $V$ $h'$ $a_1$ $a_2$ $V$ $F_1$ $F_2$

Der Pfeil ist die Projektion des Vektors auf der Komponentenebene, der die wahre Position der Variablen in dem von , , aufgespannten Raum der Variablen ist . Die quadrierte Länge des Vektors, , ist die Varianz von . Während der Teil dieser Varianz ist, der durch die beiden Komponenten erklärt wird. $h'$ $h$ $V$ $V$ $W$ $U$ $h^2$ $\bf^a$ $V$ $h'^2$

Belastung, Korrelation, projizierte Korrelation . Da Variablen vor der Extraktion von Komponenten zentriert wurden, ist die Pearson-Korrelation zwischen und Komponente . Dies sollte nicht mit auf dem Ladediagramm verwechselt werden . Dies ist eine andere Größe: Es handelt sich um eine Pearson-Korrelation zwischen der Komponente und der Variablen, die hier als . Als Variable, ist die Vorhersage von durch den (standardisiert) -Komponenten in der linearen Regression (Vergleich mit der linearen Regression Geometrie zeichnet hier ) , wo Belastungen $\cos \phi$ $V$ $F_1$ $\cos \alpha$ $F_1$ $h'$ $h'$ $V$ $a$ sind die Regressionskoeffizienten (wenn die Komponenten wie extrahiert orthogonal gehalten werden).

Des Weiteren. Wir können uns erinnern (Trigonometrie), dass . Es kann als das Skalarprodukt zwischen dem Vektor und dem Einheitslängenvektor : . setzt diesen Einheitsvarianzvektor, weil er keine eigene Varianz hat, abgesehen von der Varianz von die er erklärt (durch den Betrag ): dh ist ein aus V, W, U extrahierter und kein eingeladener Vektor -Outside Entity. Dann ist die Kovarianz $a_1 = h \cdot \cos \phi$ $V$ $F_1$ $h \cdot 1 \cdot \cos \phi$ $F_1$ $V$ $h'$ $F_1$ $a_1 = \sqrt{var_{V} \cdot var_{F_1}} \cdot r = h \cdot 1 \cdot \cos \phi$ zwischen und standardisierter , einheitenskalierter (um ) Komponente . Diese Kovarianz ist direkt mit den Kovarianzen zwischen den Eingabevariablen vergleichbar; Beispielsweise ist die Kovarianz zwischen und das Produkt ihrer Vektorlängen multipliziert mit dem Kosinus zwischen ihnen. $V$ $\bf^b$ $s_1=\sqrt{var_{F_1}}=1$ $F_1$ $V$ $W$

Zusammenfassend lässt sich dass das Laden von als Kovarianz zwischen der standardisierten Komponente und der beobachteten Variablen, , oder gleichwertig zwischen der standardisierten Komponente und der erklärten (von allen Komponenten, die das Diagramm definieren), gesehen werden kann. Bild der Variablen, . Dieses könnte als V-F1-Korrelation bezeichnet werden, die auf den F1-F2-Komponenten-Unterraum projiziert wird . $a_1$ $h \cdot 1 \cdot \cos \phi$ $h' \cdot 1 \cdot \cos \alpha$ $\cos \alpha$

Die vorgenannte Korrelation zwischen einer Variablen und einer Komponente, , wird auch als standardisierte oder neu skalierte Belastung bezeichnet . Es ist praktisch bei der Interpretation von Komponenten, weil es im Bereich [-1,1] liegt. $\cos \phi = a_1/h$

Beziehung zu Eigenvektoren . Reskaliertes Laden sollte nicht mit dem Eigenvektorelement verwechselt werden, das - wie wir es kennen - der Kosinus des Winkels zwischen einer Variablen und einer Hauptkomponente ist. Erinnern Sie sich daran, dass das Laden ein Eigenvektorelement ist, das mit dem Singularwert der Komponente (Quadratwurzel des Eigenwerts) skaliert wird. Dh für Variable unseres Plots: , wobei die st ist. Abweichung (nicht sondern Original, dh der Singularwert) der latenten Variablen . Dann kommt das Eigenvektorelement , nicht das $\cos \phi$ $V$ $a_1= e_1s_1$ $s_1$ $1$ $F_1$ $e_1= \frac{a_1}{s_1}=\frac{h}{s_1}\cos \phi$ $\cos \phi$ selbst. Die Verwirrung um zwei Wörter "Cosinus" löst sich auf, wenn wir uns erinnern, in welcher Art von Raumdarstellung wir uns befinden. Der Eigenvektorwert ist der Cosinus des Drehwinkels einer Variablen als Achse in pr. Komponente als Achse im variablen Raum (auch bekannt als Scatterplot-Ansicht), wie hier . Während in unserem Ladediagramm das Cosinus-Ähnlichkeitsmaß zwischen einer Variablen als Vektor und einem pr ist. auch als Vektor, wenn Sie möchten (obwohl es als Achse in der Zeichnung dargestellt ist), - denn wir befinden uns gerade im Themenbereich $\cos \phi$ (welches Ladediagramm ist) wo korrelierte Variablen Fächer von Vektoren sind - nicht orthogonale Achsen - und die Vektorwinkel das Maß für die Assoziation sind - und nicht für die Rotation der Raumbasis.

Während die Belastung das Assoziationsmaß des Winkels (dh des Skalarprodukttyps) zwischen einer Variablen und einer Einheitskomponente ist und die neu skalierte Belastung die standardisierte Belastung ist, bei der die Skala der Variablen auf die Einheit reduziert wird, ist der Eigenvektorkoeffizient die Belastung, bei der die Komponente ist "überstandardisiert", dh wurde auf skaliert (anstatt auf 1); Alternativ kann man sich eine neu skalierte Belastung vorstellen, bei der die Skalierung der Variablen auf (anstelle von 1) gebracht wurde. $1/s$ $h/s$

Also, was sind Assoziationen zwischen einer Variablen und einer Komponente? Sie können wählen, was Sie mögen. Es kann sein , die Belastung (Kovarianz mit Einheit skalierte Komponente) ; die neu skalierte Belastung (= Korrelation variabler Komponenten); Korrelation zwischen dem Bild (Vorhersage) und der Komponente (= projizierte Korrelation ). Man könnte sogar wählen Eigenvektor Koeffizient , wenn Sie brauchen (obwohl ich frage mich , was ein Grund dafür sein könnte). Oder erfinden Sie Ihr eigenes Maß. $a$ $\cos \phi$ $\cos \alpha$ $e= a/s$

Der quadrierte Eigenvektorwert hat die Bedeutung des Beitrags einer Variablen zu einem pr. Komponente. Das neu skalierte Laden im Quadrat hat die Bedeutung des Beitrags eines PR. Komponente in eine Variable.

Beziehung zu PCA basierend auf Korrelationen. Wenn wir PCA-analysierte nicht nur zentrierte, sondern standardisierte (zentrierte dann Einheitsvarianz-skalierte) Variablen, dann wären die drei Variablenvektoren (nicht ihre Projektionen auf der Ebene) von derselben Einheitslänge. Dann folgt automatisch, dass eine Belastung eine Korrelation und keine Kovarianz zwischen einer Variablen und einer Komponente ist. Diese Korrelation ist jedoch nicht gleich "standardisierte Belastung" des obigen Bildes (basierend auf der Analyse nur zentrierter Variablen), da PCA standardisierter Variablen (korrelationsbasierte PCA) andere Komponenten ergeben als PCA zentrierter Variablen Variablen (kovarianzbasierte PCA). In der korrelationsbasierten PCA ist $\cos \phi$ $a_1= \cos \phi$ weil , aber Hauptkomponenten sind nicht dieselben Hauptkomponenten, wie wir sie von kovarianzbasierten PCA erhalten ( read , read ). $h=1$

In der Faktoranalyse hat das Belastungsdiagramm im Wesentlichen dasselbe Konzept und dieselbe Interpretation wie in PCA. Der einzige (aber wichtige ) Unterschied ist die Substanz von . In der Faktorenanalyse ist - dann " Gemeinsamkeit " der Variablen genannt - der Teil ihrer Varianz, der durch gemeinsame Faktoren erklärt wird , die speziell für die Korrelation zwischen Variablen verantwortlich sind. Während in PCA der erläuterte Teil $h'$ $h'$ $h'$ ist eine grobe "Mischung" - sie repräsentiert teilweise Korrelation und teilweise Nicht-Korrelation zwischen Variablen. Bei der Faktorenanalyse würde die Ladeebene auf unserem Bild anders ausgerichtet sein (tatsächlich wird sie sogar aus dem Raum unserer 3D-Variablen in die 4. Dimension hineinreichen, die wir nicht zeichnen können; die Ladeebene wird kein Unterraum von uns sein) 3d Raum überspannt durch und die anderen beiden Variablen), und die Projektion wird eine andere Länge und einen anderen Winkel . (Der theoretische Unterschied zwischen PCA und Faktoranalyse wird hier geometrisch über die Subjektraumdarstellung und hier über die variable Raumdarstellung erklärt.) $V$ $h'$ $\alpha$

$\bf^{a,b}$ Eine Antwort auf @Antoni Parelladas Anfrage in Kommentaren. Es ist äquivalent, ob Sie es vorziehen, in Bezug auf die Varianz oder in Bezug auf die Streuung (SS der Abweichung) zu sprechen : Varianz = Streuung , wobei die Stichprobengröße ist. Da es sich um einen Datensatz mit demselben , ändert die Konstante nichts an den Formeln. Wenn die Daten sind (mit zentrierten Variablen V, W, U), dann ergibt die Neuzusammenstellung ihrer (A) -Kovarianzmatrix dieselben Eigenwerte (Komponentenvarianzen) und Eigenvektoren wie die Neuzusammenstellung der (B) -Streuungsmatrix erhalten nach anfänglicher Division von durch $/(n-1)$ $n$ $n$ $\bf X$ $\bf X'X$ $\bf X$ $\sqrt{n-1}$ Faktor. Danach ist in der Formel eines Ladens (siehe den mittleren Abschnitt der Antwort) , Term ist st. Abweichung in (A), aber Wurzelstreuung (dh Norm) in (B). Der Term , der gleich , ist der st der standardisierten Komponente. Abweichung in (A), aber Wurzelstreuung in (B). Schließlich ist die Korrelation, die für die Verwendung von in ihren Berechnungen unempfindlich ist . Also wir einfach $a_1 = h \cdot s_1 \cdot \cos \phi$ $h$ $\sqrt{var_{V}}$ $\Vert V \Vert$ $s_1$ $1$ $F_1$ $\sqrt{var_{F_1}}$ $\Vert F_1 \Vert$ $\cos \phi = r$ $n-1$ sprechen konzeptionell von Varianzen (A) oder von Streuungen (B), während die Werte selbst in der Formel in beiden Fällen gleich bleiben.

ttnphns
quelle

Diese Antwort ist großartig und enthält viele Informationen, aber ich denke, die eigentliche Antwort auf die Frage wäre "Was bedeutet ?".

α

$\alpha$

Shadowtalker

@ssdecontrol, dazu habe ich eine Zeile hinzugefügt.

ttnphns

Ich habe Ihre Beiträge zu diesem Thema gelesen und bin beim offensichtlich offensichtlichsten Teil geblieben, wenn Sie sagen ... "klar, . Da und , folgt . Allerdings ist , während . Was vermisse ich?

a_{1} = \sqrt{v a r_{V} \cdot v a r_{F 1}} \cdot r = h \cdot 1 \cdot \cos ϕ

$a_1 = \sqrt{var_{V} \cdot var_{F1}} \cdot r = h \cdot 1 \cdot \cos \phi$

r = c o s ϕ

$r=cos\phi$

\sqrt{v a r F 1} = 1

$\sqrt{var{F1}}=1$

\sqrt{v a r_{V}} = h

$\sqrt{var_V}=h$

h = ‖ V ‖ = \sqrt{\sum x^{2}}

$h=\Vert V\Vert= \sqrt{\sum x^2}$

\sqrt{v a r_{V}} = \sqrt{\frac{\sum x^{2}}{n - 1}}

$\sqrt{var_V}=\sqrt{\frac{\sum x^2}{n-1}}$

Antoni Parellada

@AntoniParellada, bitte überprüfen Sie die Fußnote.

ttnphns

Ich habe Ihren Nachtrag gelesen und er ist sehr aufschlussreich. Vielen Dank! Ohne bestimmte Sätze herauszusuchen, würde dies einige der Übergänge von der Einheitsvarianz zur Einheitsnormenskalierung von entlang der Antwort erklären , die mir zuvor einige Schwierigkeiten bereiteten.

F_{1}

$F_1$

Antoni Parellada

Was ist das richtige Assoziationsmaß einer Variablen mit einer PCA-Komponente (auf einem Biplot / Ladeplot)?

Antworten: