PCA sucht nach Faktoren in Daten, die die erklärte Varianz maximieren. Die kanonische Korrelationsanalyse (CCA) ähnelt meines Wissens einer PCA, sucht jedoch nach Faktoren, die die Kreuzkovarianz zwischen zwei Datensätzen maximieren. Finden Sie also pca-ähnliche Faktoren, die zwei Datensätzen gemeinsam sind.
Die unabhängige Komponentenanalyse (ICA) ähnelt der PCA, sucht jedoch nach statistisch unabhängigen Faktoren. Was in gewisser Weise zu besser interpretierbaren Faktoren führt. ZB Genwege, Hirnnetzwerke, Teile von Gesichtern. Oder Sie können sagen, es würde unabhängige Quellen identifizieren, die gemischt werden, um die Daten zu erzeugen.
Gibt es eine Methode, die ICA ähnlich ist wie PCA CCA? Das würde also unabhängige Komponenten finden, die zwei Datensätzen gemeinsam sind? Würden die Ergebnisse tatsächlich Sinn machen?
quelle
Antworten:
Der erste Schritt von ICA besteht darin, PCA zu verwenden und den Datensatz in einen niedrigdimensionalen latenten Raum zu projizieren. Der zweite Schritt besteht darin, eine Koordinatenänderung innerhalb des latenten Raums durchzuführen, die ausgewählt wird, um ein Maß für die Nicht-Gauß-Beziehung zu optimieren. Dies führt tendenziell zu Koeffizienten und Belastungen, die, wenn auch nicht spärlich, zumindest auf eine geringe Anzahl von Beobachtungen und Merkmalen konzentriert sind, und erleichtern auf diese Weise die Interpretation.
Ebenso besteht in diesem Artikel über CCA + ICA (Sui et al., "Ein CCA + ICA-basiertes Modell für die Fusion von Daten zur Bildgebung im Gehirn mit mehreren Aufgaben und deren Anwendung auf Schizophrenie") der erste Schritt (siehe Fußnote) darin, CCA durchzuführen. Dies ergibt eine Projektion jedes Datensatzes in einen niedrigdimensionalen Raum. Wenn die Eingabedatensätze sindX.1 und X.2 , jeder mit N. Zeilen = Beobachtungen, dann ergibt CCA Z.1=X.1W.1 und Z.2=X.2W.2 bei dem die Y. habe auch N. Zeilen = Beobachtungen. Notiere dass derY. haben eine kleine Anzahl von Spalten, gepaart zwischen Y.1 und Y.2 im Gegensatz zu der X. 's, die möglicherweise nicht einmal die gleiche Anzahl von Spalten haben. Die Autoren wenden dann dieselbe Koordinatenänderungsstrategie an, die in ICA verwendet wird, wenden sie jedoch auf die verkettete Matrix an[Z.1|Z.2]] .
Fußnote: Die Autoren verwenden auch Vorverarbeitungsschritte mit PCA, die ich hier ignoriere. Sie sind Teil der domänenspezifischen Analyseauswahl des Papiers und nicht wesentlich für die CCA + ICA-Methode.
quelle