Ich habe die Grundlagen der Hauptkomponentenanalyse aus Tutorial1 , Link1 und Link2 gelesen .
Ich habe einen Datensatz von 100 Variablen (einschließlich der Ausgabevariablen Y), möchte die Variablen durch PCA auf 40 reduzieren und dann die Variable Y unter Verwendung dieser 40 Variablen vorhersagen.
Problem 1: Nachdem ich Hauptkomponenten erhalten und die ersten 40 Komponenten ausgewählt habe, erhalte ich eine Funktion, die zu den Daten passt, wenn ich eine Regression darauf anwende. Aber wie kann man eine Variable Y aus den Originaldaten vorhersagen? Um die Variable Y vorherzusagen, habe ich (100-1) Variablen am Eingang, und woher weiß ich, welche 40 Variablen ich aus meinen ursprünglichen 100-1-Variablen auswählen soll?
Problem 2: Ich mache eine Umkehrung der PCA und erhalte die Daten von diesen 40 Hauptkomponenten zurück. Die Daten werden jedoch geändert, da ich nur die ersten 40 Komponenten ausgewählt habe. Ist es sinnvoll, auf diese Daten eine Regression anzuwenden?
Ich benutze Matlab / Octave.
quelle
Antworten:
Sie wählen keine Teilmenge Ihrer ursprünglichen 99 (100-1) Variablen aus.
Jede der Hauptkomponenten sind lineare Kombinationen aller 99 Prädiktorvariablen (x-Variablen, IVs, ...). Wenn Sie die ersten 40 Hauptkomponenten verwenden, ist jede von ihnen eine Funktion aller 99 ursprünglichen Prädiktorvariablen. (Zumindest bei gewöhnlicher PCA gibt es spärliche / regulierte Versionen wie die SPCA von Zou, Hastie und Tibshirani, die Komponenten liefern, die auf weniger Variablen basieren.)
Betrachten Sie den einfachen Fall zweier positiv korrelierter Variablen, von denen wir der Einfachheit halber annehmen werden, dass sie gleich variabel sind. Dann ist die erste Hauptkomponente ein (gebrochenes) Vielfaches der Summe beider Variablen und die zweite ein (gebrochenes) Vielfaches der Differenz der beiden Variablen; Wenn die beiden nicht gleich variabel sind, wird die erste Hauptkomponente die variablere stärker gewichten, aber es werden immer noch beide beteiligt sein.
Sie verwenden dann Ihre 40 neuen Variablen so, als wären sie eigenständige Prädiktoren, genau wie bei jedem Problem mit multipler Regression. (In der Praxis gibt es effizientere Möglichkeiten, die Schätzungen zu erhalten, aber lassen wir die rechnerischen Aspekte beiseite und beschäftigen uns nur mit einer Grundidee.)
In Bezug auf Ihre zweite Frage ist nicht klar, was Sie unter "Umkehrung der PCA" verstehen.
Siehe auch Wikipedia zur Regression der Hauptkomponenten .
quelle