Was ist das richtige Assoziationsmaß einer Variablen mit einer PCA-Komponente (auf einem Biplot / Ladeplot)?

17

Ich benutze FactoMineR, um meinen Messdatensatz auf die latenten Variablen zu reduzieren.

! [variable map] (http://f.cl.ly/items/071s190V1G3s1u0T0Y3M/pca.png)

Die variable Karte oben ist für mich klar zu interpretieren, aber ich bin verwirrt , wenn es um den Zusammenhang zwischen den Variablen und Komponente 1. Mit Blick auf der variablen Karte kommt, ddpund covist sehr nah an die Komponente in der Karte, und ddpAbsist ein bisschen weiter Weg. Dies ist jedoch nicht das, was die Korrelationen zeigen:

$Dim.1
$Dim.1$quanti
        correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

Dann gibt es die sin2Größe, die rpvizum Beispiel die Höhe ist , aber dieses Maß ist nicht die Variable, die der ersten Komponente überhaupt am nächsten kommt.

Variables
           Dim.1    ctr   cos2    Dim.2    ctr   cos2  
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

Worauf muss ich also achten, wenn es um die Zuordnung einer Variablen zur ersten Komponente geht?

Fredrik Karlsson
quelle
1
Obwohl Punkte auf Ihrer Karte (die als Ladediagramm aussieht) unübersichtlich sind, würde ich sagen, dass das Diagramm den "Korrelationen" entspricht, die gut ausgegeben werden. Diese "Korrelationen" sind die Koordinaten von Dim1. Sie, die Ladungen, sind Korrelationen zwischen einem Faktor und Variablen (wenn Sie Ihre Analyse auf standardisierten Daten basierten = auf Korrelationen zwischen den Variablen).
ttnphns
Zusätzlich zu den unten stehenden Antworten überprüfen Sie diese bitte mit weiteren Links.
TTNPHNS

Antworten:

25

Erläuterung eines Belastungsplots der PCA- oder Faktoranalyse.

Das Ladediagramm zeigt Variablen als Punkte im Bereich der Hauptkomponenten (oder Faktoren). Die Koordinaten der Variablen sind normalerweise die Ladungen. (Wenn Sie das Ladediagramm ordnungsgemäß mit dem entsprechenden Streudiagramm von Datenfällen im selben Komponentenbereich kombinieren, ist dies ein Biplot.)

Lassen Sie uns 3 irgendwie korrelierten Variablen, , , . Wir zentrieren sie und führen PCA durch , wobei wir zwei der ersten Hauptkomponenten aus drei extrahieren: und . Wir verwenden Ladungen als Koordinaten, um das unten stehende Ladediagramm zu erstellen. Ladungen sind die nicht standardisierten Eigenvektorelemente, dh Eigenvektoren, die mit entsprechenden Komponentenvarianzen oder Eigenwerten ausgestattet sind.W U F 1 F 2VWUF1F2

Bildbeschreibung hier eingeben

Ladeplot ist das Flugzeug auf dem Bild. Lassen Sie uns nur Variable berücksichtigen . Der Pfeil, der gewöhnlich auf einer Ladefläche gezeichnet ist, ist hier mit ; Die Koordinaten , sind die Ladungen von mit bzw. .h ' a 1 a 2 V F 1 F 2Vha1a2VF1F2

Der Pfeil ist die Projektion des Vektors auf der Komponentenebene, der die wahre Position der Variablen in dem von , , aufgespannten Raum der Variablen ist . Die quadrierte Länge des Vektors, , ist die Varianz von . Während der Teil dieser Varianz ist, der durch die beiden Komponenten erklärt wird. h V V W U h 2 a V h ' 2hhVVWUh2aVh2

Belastung, Korrelation, projizierte Korrelation . Da Variablen vor der Extraktion von Komponenten zentriert wurden, ist die Pearson-Korrelation zwischen und Komponente . Dies sollte nicht mit auf dem Ladediagramm verwechselt werden . Dies ist eine andere Größe: Es handelt sich um eine Pearson-Korrelation zwischen der Komponente und der Variablen, die hier als . Als Variable, ist die Vorhersage von durch den (standardisiert) -Komponenten in der linearen Regression (Vergleich mit der linearen Regression Geometrie zeichnet hier ) , wo BelastungenV F 1 cos α F 1 h ' h ' V acosϕVF1cosαF1hhVasind die Regressionskoeffizienten (wenn die Komponenten wie extrahiert orthogonal gehalten werden).

Des Weiteren. Wir können uns erinnern (Trigonometrie), dass . Es kann als das Skalarprodukt zwischen dem Vektor und dem Einheitslängenvektor : . setzt diesen Einheitsvarianzvektor, weil er keine eigene Varianz hat, abgesehen von der Varianz von die er erklärt (durch den Betrag ): dh ist ein aus V, W, U extrahierter und kein eingeladener Vektor -Outside Entity. Dann ist die KovarianzV F 1 h 1 cos F 1 V h F 1 a 1 = a1=hcosϕVF1h1cosϕF1VhF1Vbs1=a1=varVvarF1r=h1cosϕzwischen und standardisierter , einheitenskalierter (um ) Komponente . Diese Kovarianz ist direkt mit den Kovarianzen zwischen den Eingabevariablen vergleichbar; Beispielsweise ist die Kovarianz zwischen und das Produkt ihrer Vektorlängen multipliziert mit dem Kosinus zwischen ihnen.VbF1VWs1=varF1=1F1VW

Zusammenfassend lässt sich dass das Laden von als Kovarianz zwischen der standardisierten Komponente und der beobachteten Variablen, , oder gleichwertig zwischen der standardisierten Komponente und der erklärten (von allen Komponenten, die das Diagramm definieren), gesehen werden kann. Bild der Variablen, . Dieses könnte als V-F1-Korrelation bezeichnet werden, die auf den F1-F2-Komponenten-Unterraum projiziert wird . h 1 cos φ h '1 cos α cos αa1h1cosϕh1cosαcosα

Die vorgenannte Korrelation zwischen einer Variablen und einer Komponente, , wird auch als standardisierte oder neu skalierte Belastung bezeichnet . Es ist praktisch bei der Interpretation von Komponenten, weil es im Bereich [-1,1] liegt.cosϕ=a1/h

Beziehung zu Eigenvektoren . Reskaliertes Laden sollte nicht mit dem Eigenvektorelement verwechselt werden, das - wie wir es kennen - der Kosinus des Winkels zwischen einer Variablen und einer Hauptkomponente ist. Erinnern Sie sich daran, dass das Laden ein Eigenvektorelement ist, das mit dem Singularwert der Komponente (Quadratwurzel des Eigenwerts) skaliert wird. Dh für Variable unseres Plots: , wobei die st ist. Abweichung (nicht sondern Original, dh der Singularwert) der latenten Variablen . Dann kommt das Eigenvektorelement , nicht dasV a 1 = e 1 s 1 s 1 1 F 1 e 1 = a 1cosϕVa1=e1s1s11F1cosϕcosϕe1=a1s1=hs1cosϕcosϕ selbst. Die Verwirrung um zwei Wörter "Cosinus" löst sich auf, wenn wir uns erinnern, in welcher Art von Raumdarstellung wir uns befinden. Der Eigenvektorwert ist der Cosinus des Drehwinkels einer Variablen als Achse in pr. Komponente als Achse im variablen Raum (auch bekannt als Scatterplot-Ansicht), wie hier . Während in unserem Ladediagramm das Cosinus-Ähnlichkeitsmaß zwischen einer Variablen als Vektor und einem pr ist. auch als Vektor, wenn Sie möchten (obwohl es als Achse in der Zeichnung dargestellt ist), - denn wir befinden uns gerade im Themenbereichcosϕ (welches Ladediagramm ist) wo korrelierte Variablen Fächer von Vektoren sind - nicht orthogonale Achsen - und die Vektorwinkel das Maß für die Assoziation sind - und nicht für die Rotation der Raumbasis.

Während die Belastung das Assoziationsmaß des Winkels (dh des Skalarprodukttyps) zwischen einer Variablen und einer Einheitskomponente ist und die neu skalierte Belastung die standardisierte Belastung ist, bei der die Skala der Variablen auf die Einheit reduziert wird, ist der Eigenvektorkoeffizient die Belastung, bei der die Komponente ist "überstandardisiert", dh wurde auf skaliert (anstatt auf 1); Alternativ kann man sich eine neu skalierte Belastung vorstellen, bei der die Skalierung der Variablen auf (anstelle von 1) gebracht wurde.h / s1/sh/s

Also, was sind Assoziationen zwischen einer Variablen und einer Komponente? Sie können wählen, was Sie mögen. Es kann sein , die Belastung (Kovarianz mit Einheit skalierte Komponente) ; die neu skalierte Belastung (= Korrelation variabler Komponenten); Korrelation zwischen dem Bild (Vorhersage) und der Komponente (= projizierte Korrelation ). Man könnte sogar wählen Eigenvektor Koeffizient , wenn Sie brauchen (obwohl ich frage mich , was ein Grund dafür sein könnte). Oder erfinden Sie Ihr eigenes Maß.cos ϕ cos α e = a / sa cosϕcosαe=a/s

Der quadrierte Eigenvektorwert hat die Bedeutung des Beitrags einer Variablen zu einem pr. Komponente. Das neu skalierte Laden im Quadrat hat die Bedeutung des Beitrags eines PR. Komponente in eine Variable.

Beziehung zu PCA basierend auf Korrelationen. Wenn wir PCA-analysierte nicht nur zentrierte, sondern standardisierte (zentrierte dann Einheitsvarianz-skalierte) Variablen, dann wären die drei Variablenvektoren (nicht ihre Projektionen auf der Ebene) von derselben Einheitslänge. Dann folgt automatisch, dass eine Belastung eine Korrelation und keine Kovarianz zwischen einer Variablen und einer Komponente ist. Diese Korrelation ist jedoch nicht gleich "standardisierte Belastung" des obigen Bildes (basierend auf der Analyse nur zentrierter Variablen), da PCA standardisierter Variablen (korrelationsbasierte PCA) andere Komponenten ergeben als PCA zentrierter Variablen Variablen (kovarianzbasierte PCA). In der korrelationsbasierten PCA ista 1 = cos ϕ h = 1cosϕ a1=cosϕweil , aber Hauptkomponenten sind nicht dieselben Hauptkomponenten, wie wir sie von kovarianzbasierten PCA erhalten ( read , read ).h=1

In der Faktoranalyse hat das Belastungsdiagramm im Wesentlichen dasselbe Konzept und dieselbe Interpretation wie in PCA. Der einzige (aber wichtige ) Unterschied ist die Substanz von . In der Faktorenanalyse ist - dann " Gemeinsamkeit " der Variablen genannt - der Teil ihrer Varianz, der durch gemeinsame Faktoren erklärt wird , die speziell für die Korrelation zwischen Variablen verantwortlich sind. Während in PCA der erläuterte Teilh ' h ' V h ' αhh hist eine grobe "Mischung" - sie repräsentiert teilweise Korrelation und teilweise Nicht-Korrelation zwischen Variablen. Bei der Faktorenanalyse würde die Ladeebene auf unserem Bild anders ausgerichtet sein (tatsächlich wird sie sogar aus dem Raum unserer 3D-Variablen in die 4. Dimension hineinreichen, die wir nicht zeichnen können; die Ladeebene wird kein Unterraum von uns sein) 3d Raum überspannt durch und die anderen beiden Variablen), und die Projektion wird eine andere Länge und einen anderen Winkel . (Der theoretische Unterschied zwischen PCA und Faktoranalyse wird hier geometrisch über die Subjektraumdarstellung und hier über die variable Raumdarstellung erklärt.)Vhα


/ (n-1)nnX X ' XXa,b Eine Antwort auf @Antoni Parelladas Anfrage in Kommentaren. Es ist äquivalent, ob Sie es vorziehen, in Bezug auf die Varianz oder in Bezug auf die Streuung (SS der Abweichung) zu sprechen : Varianz = Streuung , wobei die Stichprobengröße ist. Da es sich um einen Datensatz mit demselben , ändert die Konstante nichts an den Formeln. Wenn die Daten sind (mit zentrierten Variablen V, W, U), dann ergibt die Neuzusammenstellung ihrer (A) -Kovarianzmatrix dieselben Eigenwerte (Komponentenvarianzen) und Eigenvektoren wie die Neuzusammenstellung der (B) -Streuungsmatrix erhalten nach anfänglicher Division von durch/(n1)nnXXXX a1=hs1coshn1Faktor. Danach ist in der Formel eines Ladens (siehe den mittleren Abschnitt der Antwort) , Term ist st. Abweichung in (A), aber Wurzelstreuung (dh Norm) in (B). Der Term , der gleich , ist der st der standardisierten Komponente. Abweichung in (A), aber Wurzelstreuung in (B). Schließlich ist die Korrelation, die für die Verwendung von in ihren Berechnungen unempfindlich ist . Also wir einfacha1=hs1cosϕh varVVs11F1varF1F1cosϕ=rn1sprechen konzeptionell von Varianzen (A) oder von Streuungen (B), während die Werte selbst in der Formel in beiden Fällen gleich bleiben.

ttnphns
quelle
Diese Antwort ist großartig und enthält viele Informationen, aber ich denke, die eigentliche Antwort auf die Frage wäre "Was bedeutet ?". α
Shadowtalker
@ssdecontrol, dazu habe ich eine Zeile hinzugefügt.
ttnphns
Ich habe Ihre Beiträge zu diesem Thema gelesen und bin beim offensichtlich offensichtlichsten Teil geblieben, wenn Sie sagen ... "klar, . Da und , folgt . Allerdings ist , während . Was vermisse ich?a1=varVvarF1r=h1cosϕr=cosϕvarF1=1h=V=varV=hh=V=x2varV=x2n1
Antoni Parellada
1
@AntoniParellada, bitte überprüfen Sie die Fußnote.
ttnphns
1
Ich habe Ihren Nachtrag gelesen und er ist sehr aufschlussreich. Vielen Dank! Ohne bestimmte Sätze herauszusuchen, würde dies einige der Übergänge von der Einheitsvarianz zur Einheitsnormenskalierung von entlang der Antwort erklären , die mir zuvor einige Schwierigkeiten bereiteten. F1
Antoni Parellada