Dies ist eine gute Frage, aber wie sich daraus ergibt, dass Sie PCA und CCA als Deal kennen, können Sie sie selbst beantworten. Und du machst:
[CCA] baut die kanonischen Variablen auf, um nicht blind [für die Existenz von X] die erklärte Varianz [in Y] zu maximieren, sondern bereits mit dem endgültigen Ziel, die Korrelation mit X zu maximieren.
Absolut wahr. Die Korrelation des PC des 1. Y mit dem X-Satz ist fast immer schwächer als die Korrelation des CV des 1. Y damit. Dies geht aus Bildern hervor, in denen PCA mit CCA-Aktionen verglichen wird.
Die PCA + -Regression, die Sie sich vorstellen, ist eine zweistufige, zunächst "unbeaufsichtigte" (wie Sie sagten "blinde") Strategie, während die CCA eine einstufige "überwachte" Strategie ist. Beide sind gültig - jeweils in eigenen Untersuchungsumgebungen!
Die erste Hauptkomponente (PC1), die in PCA der Menge Y erhalten wird, ist eine lineare Kombination von Y-Variablen. Die erste kanonische Variable (CV1), die aus der Menge Y in der CCA der Mengen Y und X extrahiert wurde, ist ebenfalls eine lineare Kombination von Y-Variablen. Aber sie sind anders. (Sehen Sie sich die verknüpften Bilder an und achten Sie auch auf den Satz, dass CCA der Regression näher ist - eigentlich eine Form der Regression - als der PCA.)
PC1 für gegebenen eingestellt Y . Es ist die lineare Zusammenfassung und der „Stellvertreter“ von Set Y, der Außenwelt Beziehungen zu Angesicht später (wie in einer nachfolgenden Regression von PC1 von Variablen X).
CV1 repräsentiert die Menge X innerhalb der Menge Y. Es ist das lineare Bild von X, das zu Y gehört, dem "Insider" in Y. Die YX-Beziehung ist bereits vorhanden: CCA ist eine multivariate Regression.
Angenommen, ich habe die Ergebnisse einer Kinderstichprobe auf einem Fragebogen zur Schulangst (z. B. Phillips-Test) - Y-Elemente und deren Ergebnisse auf einem Fragebogen zur sozialen Anpassung - X-Elemente. Ich möchte die Beziehung zwischen den beiden Mengen herstellen. Elemente sowohl innerhalb von X als auch innerhalb von Y korrelieren, aber sie sind sehr unterschiedlich, und ich bin nicht zufrieden mit der Idee, die Elementbewertungen in beiden Sätzen unverblümt zu einer einzigen Bewertung zusammenzufassen. Daher entscheide ich mich, multivariat zu bleiben.
Was bedeutet es, wenn ich PCA von Y mache , PC1 extrahiere und dann auf X Elemente zurückgreife? Dies bedeutet, dass ich den Angstfragebogen (Y-Punkte) als die souveräne (geschlossene) Domäne von Phänomenen respektiere, die sich ausdrücken können. Drücken Sie dies aus, indem Sie die am besten gewichtete Summe der Elemente (unter Berücksichtigung der maximalen Varianz) ausgeben, die die gesamte Menge Y darstellt - den allgemeinen Faktor / Pivot / Trend, den "Mainstream-Schulangstkomplex", den PC1. Erst bevor diese Repräsentation gebildet ist, wende ich mich der nächsten Frage zu, wie sie mit der sozialen Anpassung zusammenhängen könnte, der Frage, die ich in der Regression prüfen werde.
Wenn ich CCA machevon Y gegen X, Extrahieren des ersten Paares kanonischer Variablen - eine aus jeder Menge - mit maximaler Korrelation, was bedeutet das? Es bedeutet, dass ich den gemeinsamen Faktor zwischen (hinter) Angst und Anpassung vermute, der sie miteinander korrelieren lässt. Ich habe jedoch keinen Grund oder Grund, diesen Faktor mittels PCA- oder Faktoranalyse der kombinierten Menge "X-Variablen + Y-Variablen" zu extrahieren oder zu modellieren (weil ich zum Beispiel Angst und Anpassung konzeptionell als zwei ganz unterschiedliche Bereiche betrachte, oder weil die beiden Fragebögen sehr unterschiedliche Skalen (Einheiten) oder unterschiedlich geformte Verteilungen haben, von denen ich befürchte, dass sie "zusammengeführt" werden, oder weil die Anzahl der Elemente in ihnen sehr unterschiedlich ist). Ich werde mich nur mit der kanonischen Korrelation zwischen den Mengen zufrieden geben. Oder ich nehme keinen "gemeinsamen Faktor" hinter den Sets an, und denke einfach "X Effekte Y". Da Y multivariat ist, ist der Effekt mehrdimensional und ich frage nach dem stärksten Effekt 1. Ordnung. Sie ist durch die 1. kanonische Korrelation gegeben und die ihr entsprechende Vorhersagevariable ist CV1 der Menge Y. CV1 wird aus Y gefischt, Y nichtselbstständiger Produzent davon.