Ich habe einige Notizen gelesen und es heißt, dass PCA "die Daten kugeln" kann. Was sie für mich als "Sphärieren der Daten" definieren, ist das Teilen jeder Dimension durch die Quadratwurzel des entsprechenden Eigenwerts.
Ich gehe davon aus, dass mit "Dimension" jeder Basisvektor gemeint ist, in den wir projizieren (dh die Eigenvektoren, auf die wir projizieren). Also denke ich, dass sie tun:
Dabei ist einer der Eigenvektoren (dh eine der Hauptkomponenten). Dann gehe ich mit diesem neuen Vektor davon aus, dass sie die Rohdaten projizieren, die wir haben, sagen wir bis . Die projizierten Punkte wären nun:x ( i ) z ( i )
Sie behaupten, dass dies sicherstellt, dass alle Merkmale die gleiche Varianz haben.
Ich bin mir jedoch nicht einmal sicher, ob meine Interpretation dessen, was sie unter Kugel verstehen, richtig ist, und wollte überprüfen, ob dies der Fall ist. Auch wenn es richtig war, was bringt es, so etwas zu tun? Ich weiß, dass sie behaupten, dass es sicherstellt, dass jeder die gleiche Varianz hat, aber warum sollten wir das tun und wie wird dies erreicht?
u
ist der Wert der Eigenvektoren und bezieht sich auf rohe PC-Werte.u'
wird als Laden bezeichnet und bezieht sich auf die normalisierten PC-Werte (gleiche Varianzen). Vielleicht möchten Sie meine Antwort dazu lesen: stats.stackexchange.com/a/35653/3277 .Antworten:
Ihr Verständnis ist richtig. Schauen Sie sich diese Abbildung an, die verschiedene Möglichkeiten Ihrer Datenpunkte darstellt: http://shapeofdata.files.wordpress.com/2013/02/pca22.png
Sie sehen ellipsoid aus. Wenn Sie das tun, was Sie oben beschrieben haben, dh die Punkte in der Richtung komprimieren, in der sie am stärksten verteilt sind (ungefähr die 45-Grad-Linie im Bild), liegen die Punkte in einem Kreis (Kugel in höheren Dimensionen).
quelle