Entspricht CCA zwischen zwei identischen Datensätzen PCA in diesem Datensatz?

9

Als ich Wikipedia über die kanonische Korrelationsanalyse (CCA) für zwei Zufallsvektoren und las, fragte ich mich, ob die Hauptkomponenten-Anslysis (PCA) mit CCA identisch ist, wenn ?XYX=Y

Tim
quelle
Bitte machen Sie es klarer: 1) vectors X and YSind das zwei Variablen (Datenspalten) oder zwei Fälle (Zeilen); vorausgesetzt, wir werden die Analysen von Variablen durchführen. 2) X and Y are the sameWollten Sie sagen, dass X = Y oder anders herum?
ttnphns
@ttnphns: 1) und sind zwei Zufallsvektoren. Sie sind zwei Vektoren von Zufallsvariablen, zwei Sätze von Datenspalten, nicht zwei Fälle (Zeilen). 2) . XYX=Y
Tim
Wenn jede Menge aus einer einzelnen Variablen besteht, gibt es eine kanonische Korrelation, die genau der Pearson r zwischen ihnen ist. und CCA wird zur linearen Regression von X durch Y und umgekehrt. Die Zerlegung dieses r mittels PCA ist eine etwas andere Geschichte. PCA und CCA sind unterschiedliche Analysen.
ttnphns
Hallo, @Tim, ich frage mich, ob meine Antwort nützlich war oder ob Sie vielleicht noch weitere Fragen haben. Wenn ja, würde ich gerne klären.
Amöbe
@ Amöbe: Ja, das ist es. Ich habe momentan keine weiteren Fragen und werde Ihre Antwort später lesen. Vielen Dank für Ihre Antwort. + 1
Tim

Antworten:

6

Let sein und sein Datenmatrizen, die zwei Datensätze mit Proben (dh Beobachtungen des Zufallszeilenvektoren und ) in jedem von ihnen.Xn×p1Yn×p2nXY

CCA sucht nach einer linearen Kombination von Variablen in und einer linearen Kombination von Variablen in so dass sie maximal miteinander korreliert sind. dann sucht es nach dem nächsten Paar unter einer Bedingung der Nullkorrelation mit dem ersten Paar; etc.p1Xp2Y

Im Fall von (und ) hat jede lineare Kombination in einem Datensatz trivial die Korrelation mit derselben linearen Kombination in einem anderen Datensatz. Alle CCA-Paare haben also Korrelationen , und die Reihenfolge der Paare ist beliebig. Die einzige verbleibende Einschränkung besteht darin, dass lineare Kombinationen nicht miteinander korreliert werden sollten. Es gibt eine unendliche Anzahl von Möglichkeiten zu wählen unkorreliert Linearkombinationen (beachten Sie, dass die Gewichte nicht nicht sein müssen orthogonal in dem - dimensionalen Raum) und einer von ihnen wird eine gültige CCA - Lösung. Ein solcher Weg wird in der Tat von PCA angegeben, da zwei beliebige PCs die Korrelation Null haben.X=Yp1=p2=p11pp

Die PCA-Lösung wird zwar eine gültige CCA-Lösung sein, aber in diesem Fall gibt es unendlich viele gleichwertige CCA-Lösungen.


Mathematisch sucht CCA nach rechten ( ) und linken ( ) Singularvektoren von , was in diesem Fall gleich , wobei jeder Vektor ein Eigenvektor ist. So kann beliebig sein. CCA erhält dann die linearen Kombinationsgewichte als und . In diesem Fall läuft es darauf hinaus, eine beliebige Basis zu nehmen und sie mit transformieren , was tatsächlich unkorrelierte Richtungen erzeugt .abCXX1/2CXYCYY1/2Ia=bCXX1/2aCYY1/2bCXX1/2

Amöbe
quelle