Fragen zu PCA: Wann sind PCs unabhängig? Warum reagiert PCA empfindlich auf Skalierung? Warum müssen PCs orthogonal sein?

11

Ich versuche einige Beschreibungen von PCA zu verstehen (die ersten beiden stammen aus Wikipedia), Hervorhebung hinzugefügt:

Hauptkomponenten sind nur dann garantiert unabhängig , wenn der Datensatz gemeinsam normalverteilt ist .

Ist die Unabhängigkeit der Hauptkomponenten sehr wichtig? Wie kann ich diese Beschreibung verstehen?

PCA reagiert empfindlich auf die relative Skalierung der ursprünglichen Variablen.

Was bedeutet dort "Skalierung"? Normalisierung unterschiedlicher Dimensionen?

Die Transformation ist so definiert, dass die erste Hauptkomponente die größtmögliche Varianz aufweist und jede nachfolgende Komponente wiederum die höchste Varianz unter der Bedingung aufweist, dass sie orthogonal zu den vorhergehenden Komponenten ist .

Können Sie diese Einschränkung erklären?

Kakanana
quelle
3
# 2 gilt nur, wenn PCA durch Eigenzerlegung der Kovarianzmatrix durchgeführt wird. Wenn es durch Eigenzerlegung der Korrelationsmatrix durchgeführt wird, ist PCA unempfindlich gegenüber Skalierung.
Alexis
@Alexis Danke für deinen Beitrag. Würde es Ihnen etwas ausmachen, für # 2 zu erklären, was die Skalierung bedeutet? die dynamische Änderung der entsprechenden Dimension von Daten?
Kakanana
1
"Skalieren" kann einige Dinge bedeuten. (1) Dies kann lineare Transformationen von Daten bedeuten , wie z. B. , wobei und ; oder (2) dass die einzelnen Variablen in alle auf derselben Skala gemessen werden und eng dimensionierte Varianzen aufweisen. Mein Kommentar gilt für beide Bedeutungen. XX=a+bX<a<0<b<X
Alexis

Antworten:

19

Q1. Hauptkomponenten sind zueinander orthogonale (nicht korrelierte) Variablen. Orthogonalität und statistische Unabhängigkeit sind keine Synonyme . Hauptkomponenten haben nichts Besonderes; Gleiches gilt für alle Variablen in der multivariaten Datenanalyse. Wenn die Daten multivariat normal sind (was nicht bedeutet , dass jede der Variablen univariat normal ist) und die Variablen nicht korreliert sind, dann sind sie unabhängig. Ob die Unabhängigkeit der Hauptkomponenten wichtig ist oder nicht - hängt davon ab, wie Sie sie verwenden werden. Sehr oft wird ihre Orthogonalität ausreichen.

Q2. Ja, Skalieren bedeutet, die Varianz einzelner Variablen zu verkleinern oder zu strecken. Die Variablen sind die Dimensionen des Raums, in dem die Daten liegen. PCA-Ergebnisse - die Komponenten - sind abhängig von der Form der Datenwolke, der Form dieses "Ellipsoids". Wenn Sie nur die Variablen zentrieren und die Varianzen unverändert lassen, wird dies häufig als "PCA basierend auf Kovarianzen" bezeichnet. Wenn Sie die Variablen auch auf Varianzen = 1 standardisieren, wird dies häufig als "PCA basierend auf Korrelationen" bezeichnet und kann sich stark von den ersteren unterscheiden (siehe Thread ). Außerdem führen relativ selten Menschen PCA für nicht zentrierte Daten durch: Rohdaten oder nur auf Einheitsgröße skaliert; Die Ergebnisse einer solchen PCA unterscheiden sich weiter von der Stelle, an der Sie die Daten zentrieren (siehe Abbildung ).

Q3. Die "Einschränkung" ist, wie PCA funktioniert (siehe einen großen Thread ). Stellen Sie sich vor, Ihre Daten sind dreidimensionale Wolken (3 Variablen, Punkte). Der Ursprung wird auf den Schwerpunkt (den Mittelwert) festgelegt. PCA zeichnet Komponente1 als solche Achse durch den Ursprung, die Summe der quadratischen Projektionen (Koordinaten), auf denen maximiert wird ; Das heißt, die Varianz entlang der Komponente 1 wird maximiert. Nachdem Komponente1 definiert wurde, kann sie als Dimension entfernt werden. Dies bedeutet, dass die Datenpunkte auf die Ebene orthogonal zu dieser Komponente projiziert werden. Sie haben eine zweidimensionale Wolke. Andererseits wenden Sie das obige Verfahren zum Ermitteln der Maximalachse annVarianz - jetzt in dieser restlichen 2D-Wolke. Und das wird Komponente2 sein. Sie entfernen die gezeichnete Komponente2 aus der Ebene, indem Sie Datenpunkte auf die dazu orthogonale Linie projizieren . Diese Linie, die die verbleibende 1D-Wolke darstellt, ist als letzte Komponente, Komponente 3, definiert. Sie können sehen, dass bei jedem dieser drei "Schritte" die Analyse a) die Dimension der größten Varianz im aktuellen dimensionalen Raum gefunden hat , b) reduzierte die Daten auf die Dimensionen ohne diese Dimension, dh auf den dimensionalen Raum orthogonal zu der erwähnten Dimension. So stellt sich heraus, dass jede Hauptkomponente eine "maximale Varianz" ist und alle Komponenten zueinander orthogonal sind (siehe auch ).pp1

[ PS Bitte beachten Sie, dass "orthogonal" zwei Dinge bedeutet: (1) variable Achsen als physikalisch senkrechte Achsen; (2) Variablen, die durch ihre Daten nicht korreliert sind. Bei PCA und einigen anderen multivariaten Methoden sind diese beiden Dinge dasselbe. Bei einigen anderen Analysen (z. B. Diskriminanzanalyse) bedeuten nicht korrelierte extrahierte latente Variablen jedoch nicht automatisch, dass ihre Achsen im ursprünglichen Raum senkrecht stehen.]

ttnphns
quelle
+1 (vor langer Zeit). Zukünftige Leser möchten möglicherweise auch Antworten auf diese Frage lesen: Warum sind Hauptkomponenten in PCA (Eigenvektoren der Kovarianzmatrix) zueinander orthogonal? - Es ist als Duplikat dieses Dokuments markiert, enthält jedoch einige nützliche Antworten.
Amöbe
@ttnphns In der PS hast du geschrieben "diese beiden Dinge sind dasselbe". Ich finde die Formulierung etwas verwirrend. Wenn ich PCA als eine Änderung der Basis betrachte, ist die Aussage, dass die neue Basis orthogonal ist, nicht dasselbe wie die Aussage, dass die neuen Merkmale (dh nach der Änderung der Basis) nicht korreliert sind (ich könnte möglicherweise eine andere orthogonale Basis finden so dass die neuen Features sind korrelieren). Mir ist klar, dass PCA sowohl garantiert, dass die PCs nicht korreliert sind als auch dass die Hauptachsen orthogonal sind, aber warum sind diese Dinge gleich?
Oren Milman
@ttnphns auch, vielleicht wäre es hilfreich, auf diese Antwort zu verlinken ? Es hat mir geholfen, einige Verwirrung in Bezug auf Orthogonalität und Unkorrelation von Zufallsvariablen zu beseitigen, da sie nach einigen Definitionen gleich sind und nach einigen Definitionen nur für zentrierte Variablen gleich sind.
Oren Milman
@orenmn, danke für deine Kommentare zur Orthogonalität. In meiner Fußnote habe ich jedoch über die Orthogonalität von Achsen und nicht von Datenvektoren gesprochen. Bitte folgen Sie dem Link, den ich zur Demonstration gegeben habe.
ttnphns