Ist PCA unter Multikollinearität instabil?

25

Ich weiß, dass in einer Regressionssituation, wenn Sie eine Reihe von stark korrelierten Variablen haben, dies normalerweise "schlecht" ist, weil die geschätzten Koeffizienten instabil sind (Varianz geht gegen Unendlich, Determinante gegen Null).

Meine Frage ist, ob diese "Bösartigkeit" in einer PCA-Situation bestehen bleibt. Werden die Koeffizienten / Belastungen / Gewichte / Eigenvektoren für einen bestimmten PC instabil / willkürlich / nicht eindeutig, wenn die Kovarianzmatrix singulär wird? Mich interessiert besonders der Fall, dass nur die erste Hauptkomponente erhalten bleibt und alle anderen als "Lärm" oder "etwas anderes" oder "unwichtig" abgetan werden.

Ich glaube nicht, dass dies der Fall ist, weil Ihnen nur ein paar Hauptkomponenten übrig bleiben, die null oder nahezu null Varianz haben.

Leicht zu erkennen ist dies im einfachen Extremfall mit 2 Variablen nicht der Fall - nehmen wir an, sie sind perfekt korreliert. Dann ist der erste PC die exakte lineare Beziehung, und der zweite PC ist für den ersten PC senkrecht, wobei alle PC-Werte für alle Beobachtungen gleich Null sind (dh Varianz Null). Ich frage mich, ob es allgemeiner ist.

Wahrscheinlichkeitslogik
quelle
8
Deine Argumentation ist gut. Tatsächlich würde man erwarten, dass eine Instabilität auftritt, wenn zwei oder mehr Eigenwerte nahezu übereinstimmen, denn obwohl dann die Eigenwerte bestimmt werden, sind die Eigenvektoren nicht und daher auch nicht die Belastungen. Aus numerischen Gründen gibt es auch Instabilitäten bei Eigenwerten (und Eigenvektoren), die im Vergleich zum maximalen Eigenwert sehr klein sind.
Whuber
@whuber Kommentar beantwortet Ihre Frage, aber ich möchte darauf hinweisen, dass im Fall von 2 perfekt korrelierten Variablen die PCA keine Probleme haben sollte. Die Kovarianzmatrix hätte den Rang 1, daher gibt es nur 1 Nicht-Null-Eigenwert, also nur 1 PC. Die ursprünglichen Variablen sind die Vielfachen dieses PCs. Das einzige Problem kann die numerische Stabilität sein.
mpiktas
Tatsächlich denke ich, dass Sie schlechter dran wären, wenn Sie mäßig korrelierte Variablen hätten, als wenn Sie wirklich stark korrelierte Variablen hätten. Auch numerisch, wenn Sie einen Algorithmus wie NIPALS verwenden, der die PCs in der richtigen Reihenfolge entfernt
JMS
Eine Sache - "stark korreliert" und "kolinear" sind nicht dasselbe. Wenn mehr als 2 Variablen beteiligt sind, impliziert die Kolinearität keine Korrelation.
Peter Flom - Reinstate Monica

Antworten:

11

Die Antwort könnte in noch einfacheren Begriffen gegeben werden: Die multiple Regression hat einen Schritt mehr als der pca, wenn sie in Bezug auf die lineare Algebra gesehen wird, und ab dem zweiten Schritt entsteht die Instabilität:

RLLt

L
L

Gottfried Helms
quelle
Das ist ungefähr das, wonach ich gesucht habe. Wenn ich Ihre Antwort gelesen habe, fällt mir eine andere Erklärung ein: Die Rotationen sind numerisch stabil, unabhängig von der Determinante der Kovarianz / Korrelations-Matrix. Und da PCA als die beste Rotation der Koordinatenachse ermittelt werden kann, ist es auch numerisch stabil.
Wahrscheinlichkeitslogik
Ja, zum Beispiel wurde in Stan Mulaiks "Grundlagen der Faktoranalyse" die Stabilität der PC-Rotation (Jacobi-Methode) explizit erwähnt, wenn ich mich richtig an die Quelle erinnere. In meiner eigenen Implementierung der Faktoranalyse mache ich alles nach dem Cholesky durch Rotationen: PCA, Varimax, sogar "Principal Axis Factoring" (PAF in SPSS) können auf der Basis von Rotationen neu erstellt werden. Wenn die Multiregression auf dem Cholesky-Faktor L basiert und der Teil von L, der die unabhängigen Variablen enthält, in der PC-Position ist, kann die Multikollinearität noch besser gesteuert werden.
Gottfried Helms
3

PCA ist oft ein Mittel zum Zweck; Dies führt entweder zu Eingaben in eine multiple Regression oder zur Verwendung in einer Clusteranalyse. Ich denke, Sie sprechen in Ihrem Fall davon, die Ergebnisse eines PCA zu verwenden, um eine Regression durchzuführen.

In diesem Fall besteht Ihr Ziel bei der Durchführung einer PCA darin, die Multikollinearität zu beseitigen und orthogonale Eingaben in eine Mehrfachregression zu erhalten. Es überrascht nicht, dass dies als Regression der Hauptkomponenten bezeichnet wird. Wenn hier alle Ihre ursprünglichen Eingaben orthogonal wären, würden Sie durch Ausführen einer PCA einen weiteren Satz orthogonaler Eingaben erhalten. Deshalb; Wenn Sie eine PCA durchführen, wird davon ausgegangen, dass Ihre Eingaben Multikollinearität aufweisen.

λich^ichthλich^p

Verweise

Johnson & Wichern (2001). Angewandte multivariate statistische Analyse (6. Auflage). Prentice Hall.

schenectady
quelle
6
Ich bin nicht sicher, ob das OP nach der PCR ist. PCA ist auch eine gute Möglichkeit, multivariate Datasets zusammenzufassen (nicht unbedingt, um eine Datenreduktion für die spätere Verwendung in einem Modellierungsframework durchzuführen). Dies entspricht einer Annäherung der VC-Matrix an eine Matrix niedrigerer Ordnung, wobei die meisten Informationen erhalten bleiben. Die Frage scheint zu sein: Habe ich recht, wenn ich die ersten paar Eigenwerte und PC (als lineare Kombinationen der ursprünglichen Variablen) interpretiere, selbst wenn es einige Kollinearitätseffekte gab? Ihre Antwort scheint die Frage des OP nicht direkt zu beantworten.
Chl
2
Gute Antwort auf PCA im Allgemeinen, aber wie sieht es aus, wenn PCA das Endprodukt ist ? Das heißt, das Ziel ist die Ausgabe eines einzelnen PCs. @Chl hat mit seiner Interpretation der Frage Recht
Wahrscheinlichkeitsrechnung
@chl Was ist Ihre Antwort auf die Frage: "Habe ich Recht, wenn ich die ersten paar Eigenwerte und PCs interpretiere, auch wenn es Kollinearitätseffekte gab?" Ich frage, weil ich herauszufinden versuche, wann es eine gute Idee ist, stark korrelierte Variablen bei der Durchführung der Dimensionsreduktion beizubehalten. Wenn wir aus der Theorie wissen, dass zwei Variablen von denselben latenten Variablen gesteuert werden, sollten Sie manchmal eine der Variablen entfernen, um den Effekt der latenten Variablen nicht zweimal zu zählen. Ich versuche zu überlegen, wann es in Ordnung ist, die korrelierten Variablen beizubehalten.
Amatya