Sind PCA-Komponenten (in der Hauptkomponentenanalyse) statistisch unabhängig, wenn unsere Daten multivariat normalverteilt sind? Wenn ja, wie kann dies nachgewiesen werden?
Ich frage, weil ich diesen Beitrag gesehen habe , in dem in der oberen Antwort steht:
PCA geht nicht von einer expliziten Gaußschen Annahme aus. Es werden die Eigenvektoren gefunden, die die in den Daten erläuterte Varianz maximieren. Die Orthogonalität der Hauptkomponenten bedeutet, dass die am wenigsten korrelierten Komponenten gefunden werden, um die größtmögliche Variation der Daten zu erklären. Für multivariate Gauß-Verteilungen impliziert die Nullkorrelation zwischen Komponenten eine Unabhängigkeit, die für die meisten Verteilungen nicht zutrifft.
Die Antwort wird ohne Beweis angegeben und scheint zu implizieren, dass PCA unabhängige Komponenten produziert, wenn die Daten multivariat normal sind.
Sagen wir, unsere Daten sind Beispiele aus:
wir stellen Proben von in Zeilen der Matrix der Proben , so ist n \ times m . Berechnung der SVD von \ mathbf {X} (nach dem Zentrieren) ergibtx X X n × m X
Können wir sagen, dass die Spalten von statistisch unabhängig sind, auch dann die Zeilen von ? Trifft dies im Allgemeinen nur für oder trifft es überhaupt nicht zu?
quelle
Antworten:
Ich werde mit einer intuitiven Demonstration beginnen.
Ich generierte Beobachtungen (a) aus einer stark nicht-Gaußschen 2D-Verteilung und (b) aus einer 2D-Gaußschen Verteilung. In beiden Fällen habe ich die Daten zentriert und die Singulärwertzerlegung X = U S V ⊤ durchgeführt . Dann machte ich für jeden Fall ein Streudiagramm der ersten beiden Spalten von U , eine gegen die andere. Man beachte , dass es in der Regel Spalten von U S die „principal components“ (PC) bezeichnet werden; Spalten vonn = 100 X = U S V⊤ U U S sind PCs, die auf Einheitennorm skaliert sind. noch, ich in dieser Antwort auf Spalten am Fokussierung U . Hier sind die Streudiagramme:U U
Ich denke, dass Aussagen wie "PCA-Komponenten sind unkorreliert" oder "PCA-Komponenten sind abhängig / unabhängig" normalerweise in Bezug auf eine bestimmte Stichprobenmatrix und sich auf die Korrelationen / Abhängigkeiten zwischen Zeilen beziehen (siehe z. B. die Antwort von @ ttnphns hier ). PCA liefert eine transformierte Datenmatrix U , in der Zeilen Beobachtungen und Spalten PC-Variablen sind. Dh wir können U als Beispiel betrachten und fragen, wie die Beispielkorrelation zwischen PC-Variablen ist. Diese Probenkorrelationsmatrix ist natürlich gegeben durchX U U U⊤U = ich Dies bedeutet, dass die Beispielkorrelationen zwischen PC-Variablen Null sind. Dies ist, was die Leute meinen, wenn sie sagen, dass "PCA die Kovarianzmatrix diagonalisiert" usw.
Schlussfolgerung 1: In PCA-Koordinaten haben alle Daten keine Korrelation.
Dies gilt für die beiden obigen Streudiagramme. Es ist jedoch sofort offensichtlich, dass die beiden PC-Variablen und y im linken (nicht-Gaußschen) Streudiagramm nicht unabhängig sind. Obwohl sie keine Korrelation haben, sind sie stark abhängig und tatsächlich durch a y ≈ a ( x - b ) 2 verbunden . Und in der Tat ist bekannt, dass unkorreliert nicht unabhängig bedeutet .x y y≈ a ( x - b )2
Im Gegenteil, die beiden PC-Variablen und y im rechten (Gaußschen) Streudiagramm scheinen "ziemlich unabhängig" zu sein. Das Berechnen der gegenseitigen Information zwischen ihnen (was ein Maß für die statistische Abhängigkeit ist: Unabhängige Variablen haben keine gegenseitige Information) mit jedem Standardalgorithmus ergibt einen Wert, der sehr nahe bei Null liegt. Es wird nicht genau null sein, da es für eine endliche Stichprobengröße niemals genau null ist (es sei denn, es wird eine Feinabstimmung vorgenommen). Darüber hinaus gibt es verschiedene Methoden, um die gegenseitige Information zweier Stichproben zu berechnen und dabei leicht unterschiedliche Antworten zu erhalten. Wir können jedoch davon ausgehen, dass jede Methode eine Schätzung der gegenseitigen Informationen liefert, die sehr nahe bei Null liegt.x y
Schlussfolgerung 2: In PCA-Koordinaten sind die Gaußschen Daten "ziemlich unabhängig", was bedeutet, dass die Standardschätzungen der Abhängigkeit bei Null liegen werden.
Die Frage ist jedoch schwieriger, wie die lange Kette von Kommentaren zeigt. Tatsächlich weist @whuber Recht, dass PCA Variablen und y (Spalten von U ) muss statistisch abhängig sein: die Spalten zu der Einheitslänge haben und orthogonal sein, und dies stellt eine Abhängigkeit. Wenn beispielsweise ein Wert in der ersten Spalte gleich 1 ist , muss der entsprechende Wert in der zweiten Spalte 0 sein .x y U 1 0
Dies ist wahr, aber nur für sehr kleine praktisch relevant , wie z. B. n = 3 (mit n = 2 nach dem Zentrieren gibt es nur einen PC). Für jede vernünftige Stichprobengröße, wie z. B. n = 100 in meiner obigen Abbildung, ist der Effekt der Abhängigkeit vernachlässigbar. Spalten von U sind (skalierte) Projektionen von Gaußschen Daten, daher sind sie auch Gaußsche, was es praktisch unmöglich macht, dass ein Wert nahe bei 1 liegt (dies würde alle anderen n - 1 erfordern)n n = 3 n = 2 n = 100 U 1 n - 1 Elemente nahe , was kaum der Fall ist eine Gaußsche Verteilung).0
Schlussfolgerung 3: Genau genommen sind die Gaußschen Daten in PCA-Koordinaten für jedes endliche abhängig; Diese Abhängigkeit ist jedoch für niemanden von Bedeutungn .n ≤ 1
Wir können dies präzisieren, indem man bedenkt , was in der Grenze geschieht . In der Grenze der unendlichen Stichprobengröße ist die Stichproben-Kovarianzmatrix gleich der Populations-Kovarianzmatrix Σ . Wenn also der Datenvektor X wird aus abgetastete → X ~ N ( 0 , Σ ) , dann sind die Variablen PC → Y = Λ - 1 / 2 V ⊤ → X / ( n - 1 ) (wobei Λ und Vn → ∞ Σ X X⃗ ∼ N( 0 , Σ ) Y.⃗ = Λ- 1 / 2V⊤X⃗ / (N-1) Λ V sind Eigenwerte und Eigenvektoren von ) und → Y ∼ N ( 0 , I / ( n - 1 ) ) . Dh PC-Variablen stammen aus einem multivariaten Gaußschen mit diagonaler Kovarianz. Aber jeder multivariate Gauß mit diagonaler Kovarianzmatrix zerfällt in ein Produkt von univariaten Gaußschen, und dies ist die Definition der statistischen Unabhängigkeit :Σ Y.⃗ ∼ N( 0 , I / ( n - 1 ) )
Hier sind alle vier vorläufigen Schlussfolgerungen von oben:
quelle