Geometrisches Verständnis von PCA im Subjektraum

19

Ich versuche ein intuitives Verständnis dafür zu bekommen, wie die Hauptkomponentenanalyse (PCA) im Subjekt- (Doppel-) Raum funktioniert .

Betrachten 2D - Datensatz mit zwei Variablen, x1 und x2 , und n Datenpunkte (Datenmatrix X ist n×2 und wird angenommen, zentriert werden). Die übliche Darstellung von PCA ist, dass wir n Punkte in R2 , die 2×2 Kovarianzmatrix aufschreiben und ihre Eigenvektoren & Eigenwerte; erster PC entspricht der Richtung maximaler Varianz usw. Hier ein Beispiel mit Kovarianzmatrix C=(4222). Rote Linien zeigen Eigenvektoren, die durch die Quadratwurzeln der jeweiligen Eigenwerte skaliert sind.

PCA im Probenraum

Betrachten Sie nun, was im Themenbereich passiert (ich habe diesen Begriff von @ttnphns gelernt), der auch als dualer Bereich bezeichnet wird (der Begriff, der beim maschinellen Lernen verwendet wird). Dies ist ein dimensionaler Raum, in dem die Abtastwerte unserer beiden Variablen (zwei Spalten von X ) zwei Vektoren x 1 und x 2 bilden . Die quadrierte Länge jedes variablen Vektors ist gleich seiner Varianz, der Cosinus des Winkels zwischen den beiden Vektoren ist gleich der Korrelation zwischen ihnen. Diese Darstellung ist im Übrigen bei Behandlungen der multiplen Regression sehr üblich. In meinem Beispiel sieht der Objektraum so aus (ich zeige nur die von den beiden variablen Vektoren aufgespannte 2D-Ebene):nXx1x2

PCA im Sachgebiet 1

Hauptkomponenten, die lineare Kombinationen der beiden Variablen sind, bilden zwei Vektoren und p 2 in derselben Ebene. Meine Frage ist: Was ist die geometrische Verständnis / Intuition, wie bilden Hauptkomponente variablen Vektoren , welche die ursprünglichen Variablenvektoren auf eine solche Handlung mit? Gegeben x 1 und x 2 , was geometrische Verfahren ergäbe p 1 ?p1p2x1x2p1


Unten ist mein aktuelles teilweises Verständnis davon.

Zunächst kann ich die Hauptkomponenten / -achsen nach der Standardmethode berechnen und in derselben Abbildung darstellen:

PCA im Sachgebiet 2

Darüber hinaus können wir feststellen, dass so gewählt wird, dass die Summe der quadratischen Abstände zwischen x i (blauen Vektoren) und ihren Projektionen auf p 1 minimal ist; Diese Abstände sind Rekonstruktionsfehler und werden mit schwarzen gestrichelten Linien dargestellt. Entsprechend maximiert p 1 die Summe der quadratischen Längen beider Projektionen. Dies spezifiziert vollständig p 1 und ist natürlich völlig analog zu der ähnlichen Beschreibung im Primärraum (siehe die Animation in meiner Antwort auf Sinnvolle Hauptkomponentenanalyse, Eigenvektoren und Eigenwerte ). Siehe auch den ersten Teil der Antwort von @ ttnphns hier .p1xip1p1p1

Dies ist jedoch nicht geometrisch genug! Es sagt mir nicht, wie man solch ein und spezifiziert nicht seine Länge.p1

Ich vermute, dass , x 2 , p 1 und p 2 alle auf einer Ellipse liegen, die bei 0 zentriert ist, wobei p 1 und p 2 die Hauptachsen sind. So sieht es in meinem Beispiel aus:x1x2p1p20p1p2

Bildbeschreibung hier eingeben

F1: Wie kann man das beweisen? Direkte algebraische Demonstration scheint sehr mühsam zu sein; Wie kann man sehen, dass dies der Fall sein muss?

Es gibt jedoch viele verschiedene Ellipsen, die bei zentriert sind und durch x 1 und x 2 verlaufen :0x1x2

Bildbeschreibung hier eingeben

F2: Was gibt die "richtige" Ellipse an? Meine erste Vermutung war, dass es die Ellipse mit der längsten möglichen Hauptachse ist; aber es scheint falsch zu sein (es gibt Ellipsen mit beliebig langer Hauptachse).

Wenn es Antworten auf Q1 und Q2 gibt, möchte ich auch wissen, ob sie auf den Fall von mehr als zwei Variablen verallgemeinern.

Amöbe sagt Reinstate Monica
quelle
Stimmt es, dass es viele mögliche Ellipsen gibt, die am Ursprung zentriert sind (wo sich x1 und x2 schneiden) und Kontakt mit den entfernten Enden von x1 und x2 herstellen? Ich hätte gedacht, dass es nur einen geben würde. Sicherlich kann es viele geben, wenn Sie eines dieser drei Kriterien (Mitte & 2) lockern.
gung - Wiedereinsetzung von Monica
Es gibt viele Ellipsen, die am Ursprung zentriert sind und durch zwei Vektoren verlaufen. Für nicht kollineare Vektoren und ( c , d ) gibt es jedoch nur einen, der der Einheitskreis in der dualen Basis ist. Es ist der Ort von x ( a , b ) + y ( c , d ) wo | ( a c b d ) - 1 ( x y ) | 2 = 1.(a,b)(c,d)x(a,b)+y(c,d)
|(acbd)1(xy)|2=1.
Viel kann aus seinen Hauptachsen gelernt werden.
whuber
3
variable space (I borrowed this term from ttnphns)- @amoeba, du musst dich irren. Die Variablen als Vektoren in (ursprünglich) n-dimensionalen Raum heißt space (n Probanden als Achsen „definiert“ , während der Raum p Variablen „span“ it). Variabler Raum ist im Gegenteil das Gegenteil - das übliche Streudiagramm. So wird die Terminologie in der multivariaten Statistik festgelegt. (Wenn es beim maschinellen Lernen anders ist - das weiß ich nicht -, ist es
umso
Beachten Sie, dass beide Vektorräume sind: Vektoren (= Punkte) sind das, was überspannt, Achsen definieren die Richtungen und tragen Messkerben. Beachten Sie auch die Dialektik: Beide "Räume" sind eigentlich der gleiche Raum (für einen aktuellen Zweck nur unterschiedlich formuliert). Es ist nur zum Beispiel auf dem letzten Bild in dieser Antwort zu sehen . Wenn Sie die beiden Formulierungen überlagern, erhalten Sie den Biplot oder den doppelten Raum.
ttnphns
My guess is that x1, x2, p1, p2 all lie on one ellipseWas könnte die heuristische Hilfe von Ellipse hier sein? Ich bezweifle das.
ttnphns

Antworten:

5

Alle in der Frage angezeigten Zusammenfassungen von hängen nur von den Sekunden ab. oder äquivalent auf der Matrix X ' X . Da wir X als Punktwolke betrachten - jeder Punkt ist eine Reihe von X - fragen wir uns , welche einfachen Operationen an diesen Punkten die Eigenschaften von X ' X bewahren .XXXXXXX

Man muss mit einer n × n- Matrix U linksmultiplizieren , was eine weitere n × 2- Matrix U X erzeugen würde . Damit dies funktioniert, ist es wichtig, dassXn×nUn×2UX

XX=(UX)UX=X(UU)X.

Gleichheit ist gewährleistet , wenn ist die n × n - Einheitsmatrix: Das heißt, wenn U ist orthogonal .UUn×nU

Es ist bekannt (und leicht zu demonstrieren), dass orthogonale Matrizen Produkte von euklidischen Reflexionen und Rotationen sind (sie bilden eine Reflexionsgruppe in ). Indem wir Rotationen mit Bedacht auswählen, können wir X dramatisch vereinfachen . Eine Idee ist, sich auf Rotationen zu konzentrieren, die jeweils nur zwei Punkte in der Wolke betreffen. Diese sind besonders einfach, weil wir sie visualisieren können.RnX

Insbesondere sei und ( x j , y j ) zwei verschiedene Nicht-Null-Punkte in der Wolke, die die Zeilen i und j von X bilden . Eine Drehung des Spaltenraums R n, die nur diese beiden Punkte betrifft, konvertiert sie in(xi,yi)(xj,yj)ijXRn

{(xi,yi)=(cos(θ)xi+sin(θ)xj,cos(θ)yi+sin(θ)yj)(xj,yj)=(sin(θ)xi+cos(θ)xj,sin(θ)yi+cos(θ)yj).

Dies bedeutet, dass die Vektoren und ( y i , y j ) in der Ebene gezeichnet und um den Winkel θ gedreht werden . (Beachten Sie, wie die Koordinaten hier verwechselt werden! Die x gehen miteinander und die y gehen zusammen. Daher wird der Effekt dieser Drehung in R n normalerweise nicht wie eine Drehung der Vektoren aussehen ( x i , y i ) und ( x j , y j )(xi,xj)(yi,yj)θxyRn(xi,yi)(xj,yj) wie in gezeichnetR2 .)

Durch Auswahl des richtigen Winkels können wir eine dieser neuen Komponenten auf Null setzen. Um konkret zu sein, wählen wir so dassθ

{cos(θ)=±xixi2+xj2sin(θ)=±xjxi2+xj2.

Dies macht . Wählen Sie das Vorzeichen, um y ' j0 zu machen . Nennen wir diese Operation, die die Punkte i und j in der durch X , γ ( i , j ) dargestellten Wolke ändert .xj=0yj0ijXγ(i,j)

Das rekursive Anwenden von auf X bewirkt, dass die erste Spalte von X nur in der ersten Zeile ungleich Null ist. Geometrisch haben wir alle bis auf einen Punkt in der Wolke auf die y- Achse verschoben . Jetzt können wir eine einzelne Rotation anwenden, die möglicherweise die Koordinaten 2 , 3 , ... , n in R n beinhaltet , um diese n zusammenzudrückenγ(1,2),γ(1,3),,γ(1,n)XXy2,3,,nRnn1 points down to a single point. Equivalently, X has been reduced to a block form

X=(x1y10z),

with 0 and z both column vectors with n1 coordinates, in such a way that

XX=((x1)2x1y1x1y1(y1)2+||z||2).

This final rotation further reduces X to its upper triangular form

X=(x1y10||z||0000).

In effect, we can now understand X in terms of the much simpler 2×2 matrix (x1y10||z||) created by the last two nonzero points left standing.

To illustrate, I drew four iid points from a bivariate Normal distribution and rounded their values to

X=(0.090.120.310.630.740.231.80.39)

This initial point cloud is shown at the left of the next figure using solid black dots, with colored arrows pointing from the origin to each dot (to help us visualize them as vectors).

Figure

The sequence of operations effected on these points by γ(1,2),γ(1,3), and γ(1,4) results in the clouds shown in the middle. At the very right, the three points lying along the y axis have been coalesced into a single point, leaving a representation of the reduced form of X. The length of the vertical red vector is ||z||; the other (blue) vector is (x1,y1).

Notice the faint dotted shape drawn for reference in all five panels. It represents the last remaining flexibility in representing X: as we rotate the first two rows, the last two vectors trace out this ellipse. Thus, the first vector traces out the path

(1)θ  (cos(θ)x1,cos(θ)y1+sin(θ)||z||)

while the second vector traces out the same path according to

(2)θ  (sin(θ)x1,sin(θ)y1+cos(θ)||z||).

We may avoid tedious algebra by noting that because this curve is the image of the set of points {(cos(θ),sin(θ)):0θ<2π} under the linear transformation determined by

(1,0)  (x1,0);(0,1)  (y1,||z||),

it must be an ellipse. (Question 2 has now been fully answered.) Thus there will be four critical values of θ in the parameterization (1), of which two correspond to the ends of the major axis and two correspond to the ends of the minor axis; and it immediately follows that simultaneously (2) gives the ends of the minor axis and major axis, respectively. If we choose such a θ, the corresponding points in the point cloud will be located at the ends of the principal axes, like this:

Figure 2

Because these are orthogonal and are directed along the axes of the ellipse, they correctly depict the principal axes: the PCA solution. That answers Question 1.


The analysis given here complements that of my answer at Bottom to top explanation of the Mahalanobis distance. There, by examining rotations and rescalings in R2, I explained how any point cloud in p=2 dimensions geometrically determines a natural coordinate system for R2. Here, I have shown how it geometrically determines an ellipse which is the image of a circle under a linear transformation. This ellipse is, of course, an isocontour of constant Mahalanobis distance.

Another thing accomplished by this analysis is to display an intimate connection between QR decomposition (of a rectangular matrix) and the Singular Value Decomposition, or SVD. The γ(i,j) are known as Givens rotations. Their composition constitutes the orthogonal, or "Q", part of the QR decomposition. What remained--the reduced form of X--is the upper triangular, or "R" part of the QR decomposition. At the same time, the rotation and rescalings (described as relabelings of the coordinates in the other post) constitute the DV part of the SVD, X=UDV. The rows of U, incidentally, form the point cloud displayed in the last figure of that post.

Finally, the analysis presented here generalizes in obvious ways to the cases p2: that is, when there are just one or more than two principal components.

whuber
quelle
Though your answer may be exemplary on it own it is unclear - to me - how it relates to the question. You are speaking throughout about the data cloud X (and vectors you rotate are data points, rows of X). But the question was about the reduced subject space. In other words, we don't have any data X, we have only 2x2 covariance or scatter matrix X'X.
ttnphns
(cont.) We represent the 2 variables summarized by it as 2 vectors with lengths = sqrt(diagonal elements) and angle = their correlation. Then the OP askes how can we purely geometrically solve for the principal components. In other words, OP wants to explain geometrically eigendecomposition (eigenvalues & eigenvectors or, better, loadings) of 2x2 symmetric covariance matrix.
ttnphns
(cont.) Please look on the second picture there. What the OP of the current question seeks for is to find geometric (trigonometric etc) tools or tricks to draw the vectors P1 and P2 on that pic, having only vectors X and Y as given.
ttnphns
1
@ttnphns. It doesn't matter what the starting point is: the first half of this answer shows that you can reduce any point cloud X to a pair of points which contain all the information about XX. The second half demonstrates that pair of points is not unique, but nevertheless each lies on the same ellipse. It gives an explicit construction of that ellipse beginning with any two-point representation of XX (such as the pair of blue vectors shown in the question). Its major and minor axes yield the PCA solution (the red vectors).
whuber
1
Thanks, I'm beginning to understand your thought. (I wish you added subtitles / synopsis right in your answer about the two "halves" of it, just to structure it for a reader.)
ttnphns