Ich versuche einige Beschreibungen von PCA zu verstehen (die ersten beiden stammen aus Wikipedia), Hervorhebung hinzugefügt:
Hauptkomponenten sind nur dann garantiert unabhängig , wenn der Datensatz gemeinsam normalverteilt ist .
Ist die Unabhängigkeit der Hauptkomponenten sehr wichtig? Wie kann ich diese Beschreibung verstehen?
PCA reagiert empfindlich auf die relative Skalierung der ursprünglichen Variablen.
Was bedeutet dort "Skalierung"? Normalisierung unterschiedlicher Dimensionen?
Die Transformation ist so definiert, dass die erste Hauptkomponente die größtmögliche Varianz aufweist und jede nachfolgende Komponente wiederum die höchste Varianz unter der Bedingung aufweist, dass sie orthogonal zu den vorhergehenden Komponenten ist .
Können Sie diese Einschränkung erklären?
quelle
Antworten:
Q1. Hauptkomponenten sind zueinander orthogonale (nicht korrelierte) Variablen. Orthogonalität und statistische Unabhängigkeit sind keine Synonyme . Hauptkomponenten haben nichts Besonderes; Gleiches gilt für alle Variablen in der multivariaten Datenanalyse. Wenn die Daten multivariat normal sind (was nicht bedeutet , dass jede der Variablen univariat normal ist) und die Variablen nicht korreliert sind, dann sind sie unabhängig. Ob die Unabhängigkeit der Hauptkomponenten wichtig ist oder nicht - hängt davon ab, wie Sie sie verwenden werden. Sehr oft wird ihre Orthogonalität ausreichen.
Q2. Ja, Skalieren bedeutet, die Varianz einzelner Variablen zu verkleinern oder zu strecken. Die Variablen sind die Dimensionen des Raums, in dem die Daten liegen. PCA-Ergebnisse - die Komponenten - sind abhängig von der Form der Datenwolke, der Form dieses "Ellipsoids". Wenn Sie nur die Variablen zentrieren und die Varianzen unverändert lassen, wird dies häufig als "PCA basierend auf Kovarianzen" bezeichnet. Wenn Sie die Variablen auch auf Varianzen = 1 standardisieren, wird dies häufig als "PCA basierend auf Korrelationen" bezeichnet und kann sich stark von den ersteren unterscheiden (siehe Thread ). Außerdem führen relativ selten Menschen PCA für nicht zentrierte Daten durch: Rohdaten oder nur auf Einheitsgröße skaliert; Die Ergebnisse einer solchen PCA unterscheiden sich weiter von der Stelle, an der Sie die Daten zentrieren (siehe Abbildung ).
Q3. Die "Einschränkung" ist, wie PCA funktioniert (siehe einen großen Thread ). Stellen Sie sich vor, Ihre Daten sind dreidimensionale Wolken (3 Variablen, Punkte). Der Ursprung wird auf den Schwerpunkt (den Mittelwert) festgelegt. PCA zeichnet Komponente1 als solche Achse durch den Ursprung, die Summe der quadratischen Projektionen (Koordinaten), auf denen maximiert wird ; Das heißt, die Varianz entlang der Komponente 1 wird maximiert. Nachdem Komponente1 definiert wurde, kann sie als Dimension entfernt werden. Dies bedeutet, dass die Datenpunkte auf die Ebene orthogonal zu dieser Komponente projiziert werden. Sie haben eine zweidimensionale Wolke. Andererseits wenden Sie das obige Verfahren zum Ermitteln der Maximalachse ann Varianz - jetzt in dieser restlichen 2D-Wolke. Und das wird Komponente2 sein. Sie entfernen die gezeichnete Komponente2 aus der Ebene, indem Sie Datenpunkte auf die dazu orthogonale Linie projizieren . Diese Linie, die die verbleibende 1D-Wolke darstellt, ist als letzte Komponente, Komponente 3, definiert. Sie können sehen, dass bei jedem dieser drei "Schritte" die Analyse a) die Dimension der größten Varianz im aktuellen dimensionalen Raum gefunden hat , b) reduzierte die Daten auf die Dimensionen ohne diese Dimension, dh auf den dimensionalen Raum orthogonal zu der erwähnten Dimension. So stellt sich heraus, dass jede Hauptkomponente eine "maximale Varianz" ist und alle Komponenten zueinander orthogonal sind (siehe auch ).p p−1
[ PS Bitte beachten Sie, dass "orthogonal" zwei Dinge bedeutet: (1) variable Achsen als physikalisch senkrechte Achsen; (2) Variablen, die durch ihre Daten nicht korreliert sind. Bei PCA und einigen anderen multivariaten Methoden sind diese beiden Dinge dasselbe. Bei einigen anderen Analysen (z. B. Diskriminanzanalyse) bedeuten nicht korrelierte extrahierte latente Variablen jedoch nicht automatisch, dass ihre Achsen im ursprünglichen Raum senkrecht stehen.]
quelle