Wie werden die Daten mithilfe der Hauptkomponentenanalyse aufgehellt?

18

Ich möchte meine Daten so transformieren, dass die Varianzen eins und die Kovarianzen null sind (dh ich möchte die Daten aufhellen). Außerdem sollte das Mittel Null sein.X

Ich weiß, dass ich durch Z-Standardisierung und PCA-Transformation dorthin komme, aber in welcher Reihenfolge sollte ich sie durchführen?

Ich sollte hinzufügen, dass die zusammengesetzte Whitening-Transformation die Form .xWx+b

Gibt es eine ähnliche Methode wie PCA, die genau diese beiden Transformationen ausführt und mir eine Formel der obigen Form gibt?

Angelorf
quelle
(Mein erster Kommentar basierte auf einem falschen Verständnis Ihrer Frage.) PCA gibt Ihnen keine Kovarianzen. Sie können die PCs nachträglich standardisieren, wenn Sie dies wünschen. Es klingt seltsam, das zu tun, aber Sie können es tun.
Nick Cox
@ NickCox Vielleicht scheint es seltsam, weil die transformierten Daten dann sphärisch sind, was nicht aussagekräftig erscheint. Es ist jedoch die Transformation, die ich wissen muss, und nicht das Endergebnis. Ich weiß immer noch nicht, wie die Transformation aussehen würde. Ich lese immer noch über PCA.
Angelorf

Antworten:

31

Zuerst erhalten Sie den Mittelwert Null, indem Sie den Mittelwert subtrahieren .μ=1Nx

Zweitens erhalten Sie die Kovarianzen Null, indem Sie PCA durchführen. Wenn die Kovarianzmatrix Ihrer Daten ist, dann läuft PCA darauf hinaus, eine Neuzusammenstellung durchzuführen , wobei ist Eine orthogonale Rotationsmatrix, die aus Eigenvektoren von und ist eine Diagonalmatrix mit Eigenwerten auf der Diagonale. Matrix gibt eine Drehung an, die zum Dekorrelieren der Daten erforderlich ist (dh ordnet die ursprünglichen Features den Hauptkomponenten zu).& Sigma; = U Λ UU & Sigma; Λ UΣΣ=UΛUUΣΛU

Drittens hat jede Komponente nach der Drehung eine Varianz, die durch einen entsprechenden Eigenwert gegeben ist. Um Varianzen gleich zu machen , müssen Sie durch die Quadratwurzel von dividieren .Λ1Λ

Insgesamt lautet die Aufhellungstransformation . Sie können die Klammern öffnen, um das gesuchte Formular zu erhalten.xΛ1/2U(xμ)


Aktualisieren. Weitere Informationen finden Sie auch in diesem späteren Thread: Was ist der Unterschied zwischen ZCA-Bleaching und PCA-Bleaching?

Amöbe sagt Reinstate Monica
quelle
2
Ich denke, Sie müssen durch die Quadratwurzeln der Eigenwerte dividieren, da es um die Skalierung durch SD und nicht um die Varianz geht.
Nick Cox
@ NickCox: ja, natürlich hast du recht. Ich habe meine Antwort korrigiert. Vielen Dank!
Amöbe sagt Reinstate Monica
1
Ich habe die Formel empirisch überprüft. Danke für die Hilfe!
Angelorf