CCA durchführen vs. eine abhängige Variable mit PCA erstellen und dann Regression durchführen

9

Bei zwei mehrdimensionalen Datensätzen, und , führen einige Personen eine multivariable Analyse durch, indem sie mithilfe der Hauptkomponentenanalyse (PCA) eine ersatzabhängige Variable erstellen. Das heißt, führen Sie PCA auf Set aus, nehmen Sie Scores entlang der ersten Komponente und führen Sie eine multiple Regression dieser Scores auf : . (Ich stütze meine Frage auf diesen Artikel ). Y.XYY X y ' = β X + ϵyXy=βX+ϵ

Es sieht für mich nach einer verfälschten Form der kanonischen Korrelationsanalyse (CCA) zwischen den beiden Datensätzen aus. Aber da ich in diesem Bereich keinen Hintergrund habe, kann ich es nicht genau sagen. Meine Frage ist also, was könnten die Vor- und Nachteile der PCA + -Regressionsanalyse im Vergleich zu CCA sein?

Die Intuition sagt, dass CCA hier vernünftiger sein sollte, da es (glaube ich) die kanonischen Variablen aufbaut, um die erklärte Varianz nicht blind zu maximieren, sondern bereits mit dem endgültigen Ziel, die Korrelation mit maximieren . Habe ich recht? X


Referenz: Mei et al., 2010, Multivariate Regression auf der Basis von Hauptkomponenten für genetische Assoziationsstudien von Komponenten des metabolischen Syndroms

juod
quelle

Antworten:

6

Dies ist eine gute Frage, aber wie sich daraus ergibt, dass Sie PCA und CCA als Deal kennen, können Sie sie selbst beantworten. Und du machst:

[CCA] baut die kanonischen Variablen auf, um nicht blind [für die Existenz von X] die erklärte Varianz [in Y] zu maximieren, sondern bereits mit dem endgültigen Ziel, die Korrelation mit X zu maximieren.

Absolut wahr. Die Korrelation des PC des 1. Y mit dem X-Satz ist fast immer schwächer als die Korrelation des CV des 1. Y damit. Dies geht aus Bildern hervor, in denen PCA mit CCA-Aktionen verglichen wird.

Die PCA + -Regression, die Sie sich vorstellen, ist eine zweistufige, zunächst "unbeaufsichtigte" (wie Sie sagten "blinde") Strategie, während die CCA eine einstufige "überwachte" Strategie ist. Beide sind gültig - jeweils in eigenen Untersuchungsumgebungen!

Die erste Hauptkomponente (PC1), die in PCA der Menge Y erhalten wird, ist eine lineare Kombination von Y-Variablen. Die erste kanonische Variable (CV1), die aus der Menge Y in der CCA der Mengen Y und X extrahiert wurde, ist ebenfalls eine lineare Kombination von Y-Variablen. Aber sie sind anders. (Sehen Sie sich die verknüpften Bilder an und achten Sie auch auf den Satz, dass CCA der Regression näher ist - eigentlich eine Form der Regression - als der PCA.)

PC1 für gegebenen eingestellt Y . Es ist die lineare Zusammenfassung und der „Stellvertreter“ von Set Y, der Außenwelt Beziehungen zu Angesicht später (wie in einer nachfolgenden Regression von PC1 von Variablen X).

CV1 repräsentiert die Menge X innerhalb der Menge Y. Es ist das lineare Bild von X, das zu Y gehört, dem "Insider" in Y. Die YX-Beziehung ist bereits vorhanden: CCA ist eine multivariate Regression.

Angenommen, ich habe die Ergebnisse einer Kinderstichprobe auf einem Fragebogen zur Schulangst (z. B. Phillips-Test) - Y-Elemente und deren Ergebnisse auf einem Fragebogen zur sozialen Anpassung - X-Elemente. Ich möchte die Beziehung zwischen den beiden Mengen herstellen. Elemente sowohl innerhalb von X als auch innerhalb von Y korrelieren, aber sie sind sehr unterschiedlich, und ich bin nicht zufrieden mit der Idee, die Elementbewertungen in beiden Sätzen unverblümt zu einer einzigen Bewertung zusammenzufassen. Daher entscheide ich mich, multivariat zu bleiben.

Was bedeutet es, wenn ich PCA von Y mache , PC1 extrahiere und dann auf X Elemente zurückgreife? Dies bedeutet, dass ich den Angstfragebogen (Y-Punkte) als die souveräne (geschlossene) Domäne von Phänomenen respektiere, die sich ausdrücken können. Drücken Sie dies aus, indem Sie die am besten gewichtete Summe der Elemente (unter Berücksichtigung der maximalen Varianz) ausgeben, die die gesamte Menge Y darstellt - den allgemeinen Faktor / Pivot / Trend, den "Mainstream-Schulangstkomplex", den PC1. Erst bevor diese Repräsentation gebildet ist, wende ich mich der nächsten Frage zu, wie sie mit der sozialen Anpassung zusammenhängen könnte, der Frage, die ich in der Regression prüfen werde.

Wenn ich CCA machevon Y gegen X, Extrahieren des ersten Paares kanonischer Variablen - eine aus jeder Menge - mit maximaler Korrelation, was bedeutet das? Es bedeutet, dass ich den gemeinsamen Faktor zwischen (hinter) Angst und Anpassung vermute, der sie miteinander korrelieren lässt. Ich habe jedoch keinen Grund oder Grund, diesen Faktor mittels PCA- oder Faktoranalyse der kombinierten Menge "X-Variablen + Y-Variablen" zu extrahieren oder zu modellieren (weil ich zum Beispiel Angst und Anpassung konzeptionell als zwei ganz unterschiedliche Bereiche betrachte, oder weil die beiden Fragebögen sehr unterschiedliche Skalen (Einheiten) oder unterschiedlich geformte Verteilungen haben, von denen ich befürchte, dass sie "zusammengeführt" werden, oder weil die Anzahl der Elemente in ihnen sehr unterschiedlich ist). Ich werde mich nur mit der kanonischen Korrelation zwischen den Mengen zufrieden geben. Oder ich nehme keinen "gemeinsamen Faktor" hinter den Sets an, und denke einfach "X Effekte Y". Da Y multivariat ist, ist der Effekt mehrdimensional und ich frage nach dem stärksten Effekt 1. Ordnung. Sie ist durch die 1. kanonische Korrelation gegeben und die ihr entsprechende Vorhersagevariable ist CV1 der Menge Y. CV1 wird aus Y gefischt, Y nichtselbstständiger Produzent davon.

ttnphns
quelle
1
+1. Ich würde vielleicht hinzufügen, dass CCA wie jede andere Regression zu Überanpassung neigt. Wenn Y und / oder X viele Variablen enthalten, kann CCA zu der ersten Komponente in Y führen, die zu fast 100% von X vorhergesagt wird, aber tatsächlich vollständig auf Rauschen zurückzuführen ist. Das Ausführen von PCAs auf X und Y vor dem Ausführen von CCA kann als eine Art Regularisierung dienen. Reduzieren Sie Y in extremer Form auf einen PC.
Amöbe
@amoeba, danke für den Zusatz. Es berührt die inferentielle Seite der Geschichte (Bevölkerung, Bedeutung, Sparsamkeit), die ich in der Antwort völlig weggelassen habe. Ich glaube, ich verstehe, was Sie sagen, aber Sie sagen, es ist zu zurückhaltend für jemanden. Überanpassung, Lärm - diese Dinge sollten erklärt werden, und deshalb empfehle ich Ihnen vielleicht, eine separate Antwort zu geben, um Ihren Kommentar auszupacken.
ttnphns