Kann man mehrere Regressionen verwenden, um eine Hauptkomponente (PC) von mehreren anderen PCs vorherzusagen?

15

Vor einiger Zeit fragte ein Benutzer auf der R-Help-Mailingliste nach der Richtigkeit der Verwendung von PCA-Scores in einer Regression. Der Benutzer versucht, einige PC-Scores zu verwenden, um Variationen in einem anderen PC zu erklären (siehe vollständige Diskussion hier ). Die Antwort war: Nein, das ist kein Ton, weil die PCs orthogonal zueinander sind.

Kann jemand etwas genauer erklären, warum das so ist?

Roman Luštrik
quelle
1
Warum hast du rtag gesetzt und was meinst du mit "warum das so ist"? PCs sind nicht korreliert, dh sie sind orthogonal und additiv. Sie können nicht vorhersagen, ob ein PC mit dem anderen identisch ist. Suchen Sie eine Formel?
aL3xa
Ich habe mich über die Prinzipien hinter der Logik gewundert (in meinem Bestreben, PCA zu verstehen). Ich habe R-Tag verwendet, weil R-Leute dies lesen und vielleicht R-Beispiele zeigen könnten. :)
Roman Luštrik
Oh, warum hast du das nicht gesagt? Haben Sie gesehen, statmethods.net/advstats/factor.html
aL3xa

Antworten:

11

Eine Hauptkomponente ist eine gewichtete lineare Kombination aller Ihrer Faktoren (X).

Beispiel: PC1 = 0,1X1 + 0,3X2

Es wird eine Komponente für jeden Faktor geben (obwohl im Allgemeinen eine kleine Anzahl ausgewählt wird).

Die Komponenten werden konstruktionsbedingt so erstellt, dass sie keine Korrelation aufweisen (orthogonal sind).

Daher sollte die Komponente PC1 keine Variation in der Komponente PC2 erklären.

Möglicherweise möchten Sie eine Regression für Ihre Y-Variable und die PCA-Darstellung Ihrer X-Variablen durchführen, da diese keine Multi-Kollinearität aufweisen. Dies könnte jedoch schwer zu interpretieren sein.

Wenn Sie mehr X als Beobachtungen haben, wodurch OLS unterbrochen wird, können Sie Ihre Komponenten regressieren und einfach eine kleinere Anzahl der Komponenten mit der höchsten Variation auswählen.

Principal Component Analysis von Jollife ist ein sehr ausführliches und viel zitiertes Buch zu diesem Thema

Das ist auch gut so: http://www.statsoft.com/textbook/principal-components-factor-analysis/

Neil McGuigan
quelle
11

Die Hauptkomponenten sind per Definition orthogonal, sodass jedes Paar von PCs keine Korrelation aufweist.

PCA kann jedoch in der Regression verwendet werden, wenn es eine große Anzahl erklärender Variablen gibt. Diese können auf eine kleine Anzahl von Hauptkomponenten reduziert und als Prädiktoren in einer Regression verwendet werden.

Rob Hyndman
quelle
Wäre das dann nicht FA?
Roman Luštrik
3
Nein, FA ist keine Regression. Ich beziehe mich auf eine Antwortvariable, die gegen die Hauptkomponenten zurückgegangen ist, die aus einer großen Anzahl erklärender Variablen berechnet wurden. Die Hauptkomponenten selbst hängen eng mit den Faktoren von FA zusammen.
Rob Hyndman
Es tut mir leid, ich hätte in meinem Kommentar präziser sein sollen. Ihr Schreiben, dass die erklärenden Variablen auf eine kleine Anzahl von PC reduziert werden können, läutete mich "Faktoranalyse".
Roman Luštrik
In der Menge mit n Variablen können n PCs extrahiert werden, aber Sie können entscheiden, wie viele Sie behalten möchten, z. B. sagt das Guttman-Keiser-Kriterium: Behalten Sie alle PCs bei, deren Eigenwert (Varianz) größer als 1 ist. .
aL3xa
7

Vorsichtig ... nur weil die PCs konstruktionsbedingt orthogonal zueinander sind, heißt das nicht, dass es kein Muster gibt oder dass ein PC scheinbar nichts über die anderen PCs "erklären" kann.

Betrachten Sie 3D-Daten (X, Y, Z), die eine große Anzahl von Punkten beschreiben, die gleichmäßig auf der Oberfläche eines American Football verteilt sind (es ist ein Ellipsoid - keine Kugel - für diejenigen, die American Football noch nie gesehen haben). Stellen Sie sich vor, dass der Fußball in einer beliebigen Konfiguration vorliegt, sodass weder X noch Y noch Z entlang der Längsachse des Fußballs verlaufen.

Die Hauptkomponenten platzieren PC1 entlang der Längsachse des Fußballs, der Achse, die die größte Abweichung in den Daten beschreibt.

Für jeden Punkt in der PC1-Dimension entlang der Längsachse des Fußballs sollte die durch PC2 und PC3 dargestellte ebene Schicht einen Kreis beschreiben, und der Radius dieser kreisförmigen Schicht hängt von der PC1-Dimension ab. Es ist richtig, dass Regressionen von PC2 oder PC3 auf PC1 global einen Koeffizienten von Null ergeben sollten, jedoch nicht über kleinere Abschnitte des Fußballs. Es ist klar, dass eine 2D-Grafik von PC1 und PC2 eine "interessante" Grenzlinie darstellen würde das ist zweiwertig, nichtlinear und symmetrisch.

Paul
quelle
3

Wenn Ihre Daten hochdimensional und verrauscht sind und Sie nicht über eine große Anzahl von Samples verfügen, besteht die Gefahr einer Überanpassung. In solchen Fällen ist es sinnvoll, PCA (das einen dominanten Teil der Datenvarianz erfassen kann; Orthogonalität ist kein Problem) oder eine Faktorenanalyse (die die wahren erklärenden Variablen finden kann, die den Daten zugrunde liegen) zu verwenden, um die Datendimensionalität zu verringern und dann Trainieren Sie mit ihnen ein Regressionsmodell.

Für Faktoranalyse basierte Ansätze finden Sie in diesem Papier Bayes - Faktor Regressionsmodell und eine nichtparametrischer Bayes - Version dieses Modells , das nicht davon ausgehen , dass Sie von vornherein wissen , die „wahre“ Zahl der relevanten Faktoren (oder Hauptkomponenten bei PCA).

In vielen Fällen kann eine überwachte Dimensionsreduzierung (z. B. Fisher Discriminant Analysis ) Verbesserungen gegenüber einfachen PCA- oder FA-basierten Ansätzen bewirken, da Sie die Etiketteninformationen bei der Dimensionsreduzierung verwenden können.

Ebenholz1
quelle
0

Sie könnten es herausziehen, wenn der vorhergesagte PC-Score aus anderen Variablen oder Fällen extrahiert wurde als der PC-Score des Prädiktors. Wenn dies der Fall ist und der Prädiktor nicht orthogonal ist oder zumindest nicht sein muss, ist die Korrelation natürlich nicht garantiert.

Tomas Boncompte
quelle