Sind PCA-Komponenten multivariater Gauß-Daten statistisch unabhängig?

16

Sind PCA-Komponenten (in der Hauptkomponentenanalyse) statistisch unabhängig, wenn unsere Daten multivariat normalverteilt sind? Wenn ja, wie kann dies nachgewiesen werden?

Ich frage, weil ich diesen Beitrag gesehen habe , in dem in der oberen Antwort steht:

PCA geht nicht von einer expliziten Gaußschen Annahme aus. Es werden die Eigenvektoren gefunden, die die in den Daten erläuterte Varianz maximieren. Die Orthogonalität der Hauptkomponenten bedeutet, dass die am wenigsten korrelierten Komponenten gefunden werden, um die größtmögliche Variation der Daten zu erklären. Für multivariate Gauß-Verteilungen impliziert die Nullkorrelation zwischen Komponenten eine Unabhängigkeit, die für die meisten Verteilungen nicht zutrifft.

Die Antwort wird ohne Beweis angegeben und scheint zu implizieren, dass PCA unabhängige Komponenten produziert, wenn die Daten multivariat normal sind.

Sagen wir, unsere Daten sind Beispiele aus:

xN(μ,Σ)

wir stellen Proben von in Zeilen der Matrix der Proben , so ist n \ times m . Berechnung der SVD von \ mathbf {X} (nach dem Zentrieren) ergibtx X X n × m XnxXXn×mX

X=USVT

Können wir sagen, dass die Spalten von U statistisch unabhängig sind, auch dann die Zeilen von VT ? Trifft dies im Allgemeinen nur für xN(μ,Σ) oder trifft es überhaupt nicht zu?

bill_e
quelle
1
stats.stackexchange.com/q/110508/3277 ist eine ähnliche Frage.
TTNPHNS
1
Ich verstehe nicht, wie PCs möglicherweise in mehr als einer Dimension als "statistisch unabhängig" angesehen werden könnten. Schließlich ist per definitionem jeder orthogonal zu allen anderen; Diese funktionale Abhängigkeit erzeugt eine sehr starke statistische Abhängigkeit.
whuber
1
@amoeba Ich hoffe, dass ich der Frage, die ich als eindeutig und eindeutig empfinde, durchweg klar und treu gefolgt bin: Weil die Daten zufällig sind, sind auch alle Einträge in zufällig . Ich habe die Definition der statistischen Unabhängigkeit auf sie angewendet. Das ist alles. Ihr Problem scheint zu sein, dass Sie das Wort "unkorreliert" in zwei sehr unterschiedlichen Sinnen verwenden, ohne es zu bemerken: Aufgrund der Art und Weise, wie die Spalten von sind, sind sie geometrisch orthogonal als Vektoren in , aber sie sind keineswegs unabhängige Zufallsvektoren! U U R nXUURn
Whuber
1
@amoeba Sie haben Recht - die Simulation zeigt ziemlich überzeugend, dass die Korrelation (stark) ungleich Null sein kann. Ich bestreite jedoch nicht, dass "PCA-Komponenten unkorreliert" im Sinne von "Korrelation" = "orthogonal" sind, und ich sage auch nicht, dass ein bestimmtes Lehrbuch falsch ist. Ich befürchte, dass eine solche Aussage, wenn sie richtig verstanden wird, für die Frage so irrelevant ist, dass sie im gegenwärtigen Kontext nur zu weitreichender Verwirrung führen kann (und dies getan hat).
whuber
1
@whuber, ich bin sicher, Sie haben sich schon auf eine weitere Ausgabe meiner Antwort gefreut! Hier ist es. Ich ausdrücklich Ihre Punkte zu Abhängigkeiten erkennen und eine Erklärung abgeben , dass Spalten von sind asymptotisch unabhängig, als mein Hauptpunkt. Hier bezieht sich "asymptotisch" auf die Anzahl von Beobachtungen (Zeilen). Ich hoffe sehr, dass wir uns darauf einigen können! Ich argumentiere auch, dass für jedes vernünftige wie die Abhängigkeit zwischen Spalten "praktisch irrelevant" ist. Ich denke, das ist ein strittigerer Punkt, aber ich versuche es in meiner Antwort einigermaßen präzise zu machen. n n n = 100Unnn=100
Amöbe sagt Reinstate Monica

Antworten:

23

Ich werde mit einer intuitiven Demonstration beginnen.

Ich generierte Beobachtungen (a) aus einer stark nicht-Gaußschen 2D-Verteilung und (b) aus einer 2D-Gaußschen Verteilung. In beiden Fällen habe ich die Daten zentriert und die Singulärwertzerlegung X = U S V ⊤ durchgeführt . Dann machte ich für jeden Fall ein Streudiagramm der ersten beiden Spalten von U , eine gegen die andere. Man beachte , dass es in der Regel Spalten von U S die „principal components“ (PC) bezeichnet werden; Spalten vonn=100X=USVUUSsind PCs, die auf Einheitennorm skaliert sind. noch, ich in dieser Antwort auf Spalten am Fokussierung U . Hier sind die Streudiagramme:UU

PCA von Gaußschen und Nicht-Gaußschen Daten

Ich denke, dass Aussagen wie "PCA-Komponenten sind unkorreliert" oder "PCA-Komponenten sind abhängig / unabhängig" normalerweise in Bezug auf eine bestimmte Stichprobenmatrix und sich auf die Korrelationen / Abhängigkeiten zwischen Zeilen beziehen (siehe z. B. die Antwort von @ ttnphns hier ). PCA liefert eine transformierte Datenmatrix U , in der Zeilen Beobachtungen und Spalten PC-Variablen sind. Dh wir können U als Beispiel betrachten und fragen, wie die Beispielkorrelation zwischen PC-Variablen ist. Diese Probenkorrelationsmatrix ist natürlich gegeben durchXUUUU=IDies bedeutet, dass die Beispielkorrelationen zwischen PC-Variablen Null sind. Dies ist, was die Leute meinen, wenn sie sagen, dass "PCA die Kovarianzmatrix diagonalisiert" usw.

Schlussfolgerung 1: In PCA-Koordinaten haben alle Daten keine Korrelation.

Dies gilt für die beiden obigen Streudiagramme. Es ist jedoch sofort offensichtlich, dass die beiden PC-Variablen und y im linken (nicht-Gaußschen) Streudiagramm nicht unabhängig sind. Obwohl sie keine Korrelation haben, sind sie stark abhängig und tatsächlich durch a y a ( x - b ) 2 verbunden . Und in der Tat ist bekannt, dass unkorreliert nicht unabhängig bedeutet .xyya(xb)2

Im Gegenteil, die beiden PC-Variablen und y im rechten (Gaußschen) Streudiagramm scheinen "ziemlich unabhängig" zu sein. Das Berechnen der gegenseitigen Information zwischen ihnen (was ein Maß für die statistische Abhängigkeit ist: Unabhängige Variablen haben keine gegenseitige Information) mit jedem Standardalgorithmus ergibt einen Wert, der sehr nahe bei Null liegt. Es wird nicht genau null sein, da es für eine endliche Stichprobengröße niemals genau null ist (es sei denn, es wird eine Feinabstimmung vorgenommen). Darüber hinaus gibt es verschiedene Methoden, um die gegenseitige Information zweier Stichproben zu berechnen und dabei leicht unterschiedliche Antworten zu erhalten. Wir können jedoch davon ausgehen, dass jede Methode eine Schätzung der gegenseitigen Informationen liefert, die sehr nahe bei Null liegt.xy

Schlussfolgerung 2: In PCA-Koordinaten sind die Gaußschen Daten "ziemlich unabhängig", was bedeutet, dass die Standardschätzungen der Abhängigkeit bei Null liegen werden.

Die Frage ist jedoch schwieriger, wie die lange Kette von Kommentaren zeigt. Tatsächlich weist @whuber Recht, dass PCA Variablen und y (Spalten von U ) muss statistisch abhängig sein: die Spalten zu der Einheitslänge haben und orthogonal sein, und dies stellt eine Abhängigkeit. Wenn beispielsweise ein Wert in der ersten Spalte gleich 1 ist , muss der entsprechende Wert in der zweiten Spalte 0 sein .xyU10

Dies ist wahr, aber nur für sehr kleine praktisch relevant , wie z. B. n = 3 (mit n = 2 nach dem Zentrieren gibt es nur einen PC). Für jede vernünftige Stichprobengröße, wie z. B. n = 100 in meiner obigen Abbildung, ist der Effekt der Abhängigkeit vernachlässigbar. Spalten von U sind (skalierte) Projektionen von Gaußschen Daten, daher sind sie auch Gaußsche, was es praktisch unmöglich macht, dass ein Wert nahe bei 1 liegt (dies würde alle anderen n - 1 erfordern)nn=3n=2n=100U1n1 Elemente nahe , was kaum der Fall ist eine Gaußsche Verteilung).0

Schlussfolgerung 3: Genau genommen sind die Gaußschen Daten in PCA-Koordinaten für jedes endliche abhängig; Diese Abhängigkeit ist jedoch für niemanden von Bedeutungn .n1

Wir können dies präzisieren, indem man bedenkt , was in der Grenze geschieht . In der Grenze der unendlichen Stichprobengröße ist die Stichproben-Kovarianzmatrix gleich der Populations-Kovarianzmatrix Σ . Wenn also der Datenvektor X wird aus abgetastete X ~ N ( 0 , Σ ) , dann sind die Variablen PC Y = Λ - 1 / 2 V X / ( n - 1 ) (wobei Λ und VnΣXXN(0,Σ)Y=Λ1/2VX/(n1)ΛVsind Eigenwerte und Eigenvektoren von ) und YN ( 0 , I / ( n - 1 ) ) . Dh PC-Variablen stammen aus einem multivariaten Gaußschen mit diagonaler Kovarianz. Aber jeder multivariate Gauß mit diagonaler Kovarianzmatrix zerfällt in ein Produkt von univariaten Gaußschen, und dies ist die Definition der statistischen Unabhängigkeit :ΣY.N(0,ich/(n-1))

N(0,dicheinG(σich2))=1(2π)k/2det(dicheinG(σich2))1/2exp[-xdicheinG(σich2)x/2]=1(2π)k/2(ich=1kσich2)1/2exp[-ich=1kσich2xich2/2]=1(2π)1/2σichexp[-σich2xich2/2]=N(0,σich2).

n

U als Zufallsvariable zu betrachten (erhalten aus der Zufallsmatrix)XUichjUklX


Hier sind alle vier vorläufigen Schlussfolgerungen von oben:

  • In PCA-Koordinaten haben alle Daten keine Korrelation.
  • In PCA-Koordinaten sind Gauß-Daten "ziemlich unabhängig", was bedeutet, dass die Standardschätzungen der Abhängigkeit bei Null liegen werden.
  • nn1
  • n
Amöbe sagt Reinstate Monica
quelle
Sie schreiben: "Wenn die Daten jedoch multivariate Gauß-Werte sind, sind sie tatsächlich unabhängig." "Sie" sind die Hauptkomponenten und ihre Koeffizienten? Was meinst du mit PCA diagonalisiert die Kovarianzmatrix? Danke für Ihre Antwort!
bill_e
SU orthogonal, was bedeutet, dass ihre Kovarianzmatrix diagonal ist. All dies bedeutet, dass PCs die Korrelation Null haben.
Amöbe sagt Reinstate Monica
Cool Danke! Die Kombination Ihrer Antwort und dieses Kommentars hilft mir sehr dabei, die Dinge aufzuklären. Kann ich deinen Kommentar in deine Antwort einfügen?
bill_e
Ich habe die Antwort um den Kommentar erweitert. sehen Sie, ob Sie jetzt damit zufrieden sind.
Amöbe sagt Reinstate Monica
2
Interessante Diskussion! Als ich die Frage stellte, dachte ich an statistische Abhängigkeit: "Wenn Sie PC1 kennen, ist es möglich, auf PC2 zu schließen? Usw." Ich werde mich jetzt mehr mit Unabhängigkeitstests befassen, die auf gegenseitigen Informationen basieren.
bill_e