Kanonische Korrelationsanalyse mit Rangkorrelation

15

Die kanonische Korrelationsanalyse (CCA) zielt darauf ab, die übliche Pearson-Produkt-Moment-Korrelation (dh den linearen Korrelationskoeffizienten) der linearen Kombinationen der beiden Datensätze zu maximieren.

Betrachten wir nun die Tatsache, dass dieser Korrelationskoeffizient nur lineare Assoziationen misst - genau aus diesem Grund verwenden wir beispielsweise auch Spearman- rho- oder Kendall- Korrelationskoeffizienten (Rang), die beliebige monotone (nicht notwendigerweise lineare) Koeffizienten messen. Verbindung zwischen Variablen.ρτ

Daher dachte ich an Folgendes: Eine Einschränkung von CCA ist, dass es aufgrund seiner objektiven Funktion nur versucht, die lineare Assoziation zwischen den gebildeten linearen Kombinationen zu erfassen. Wäre es nicht möglich, die CCA in gewissem Sinne zu erweitern, indem Sie beispielsweise Spearman- anstelle von Pearson- maximieren ?ρr

Würde ein solches Vorgehen zu statistisch interpretierbaren und aussagekräftigen Ergebnissen führen? (Ist es zum Beispiel sinnvoll, CCA auf Rängen durchzuführen ...?) Ich frage mich, ob es helfen würde, wenn es sich um nicht normale Daten handelt ...

Tamas Ferenci
quelle
4
Wird OVERALS - eine lineare kanonische Analyse, die Variablen optimal skaliert (monoton transformiert), um kanonische Korrelationen zu maximieren - Ihren Wünschen entsprechen?
TTNPHNS
@ttnphns: Danke für die Idee, ich habe noch nie davon gehört und sieht wirklich interessant aus! Ich glaube jedoch nicht, dass dies den Punkt betrifft: Soweit ich weiß, handelt es sich im Wesentlichen um eine Kombination aus optimaler Skalierung und CCA - aber eine optimale Skalierung ist nur für kategoriale Variablen wirklich sinnvoll. Es scheint sich nicht viel zu ändern für kontinuierliche Variablen, die auf einer Verhältnisskala gemessen werden (was ich im Kopf habe!). Aber korrigiere mich, wenn ich falsch liege.
Tamas Ferenci
1
@ttnphns: Nun, genau so, wie Sie manchmal die Spearman-Korrelation für stetige Variablen verwenden! (Natürlich werden die Daten als ordinal behandelt ... aber wir verwenden sie dennoch für definitiv kontinuierliche Variablen, um die allgemeine monotone (und nicht nur lineare) Assoziation zwischen den Variablen zu charakterisieren.) Aus diesem Grund dachte ich, dass dies auch innerhalb von CCA Sinn machen würde ...
Tamas Ferenci
@ Glen_b, Sie haben recht. Natürlich gelten die Rangkorrelationen für jede Monotonie - ob ordinale oder kontinuierliche Daten. Ich bin so überrascht über meinen eigenen Kommentar, dass ich ihn lösche.
TTNPHNS
Sie könnten versuchen, Kernel-CCA zu verwenden, das es uns speziell bei Verwendung mit radialen Basisfunktionen ermöglicht, die Daten in einen unendlichen dimensionalen Unterraum zu projizieren.
Roni

Antworten:

6

Bei der Berechnung kanonischer Variablen habe ich eingeschränkte kubische Spline-Erweiterungen verwendet. Sie fügen der Analyse nichtlineare Basisfunktionen genau so hinzu, wie Sie neue Features hinzufügen würden. Dies führt zu einer nichtlinearen Hauptkomponentenanalyse. Siehe das R - HmiscPaket ‚s - transcanFunktion für ein Beispiel. Das R- homalsPaket geht noch viel weiter.

Frank Harrell
quelle
1
Vielen Dank! Der in Homals beschriebene Ansatz war für mich neu, aber auf jeden Fall interessant.
Tamas Ferenci
4

Die Standardmethode der CCA arbeitet mit der Produktmomentkorrelationskoeffizientenmatrix. Für die größte mg CC werden zwei zusammengesetzte Variablen z1 (n) und z2 (n) durch lineare Kombination von zwei Matixen (mit n Zeilen und Variablen m1 und m2) so konstruiert, dass abs (Korrelation (z1, z2)) maximiert wird. Diese Zielfunktion kann direkt maximiert werden, auch wenn die Korrelation (z1, z2) kein Produktmoment ist, sondern anders definiert ist.

Mishra, SK (2009) "Eine Anmerkung zur ordinalen kanonischen Korrelationsanalyse von zwei Sätzen von Ranglistenwerten"

http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1328319

SK Mishra
quelle