Ich weiß, dass in einer Regressionssituation, wenn Sie eine Reihe von stark korrelierten Variablen haben, dies normalerweise "schlecht" ist, weil die geschätzten Koeffizienten instabil sind (Varianz geht gegen Unendlich, Determinante gegen Null).
Meine Frage ist, ob diese "Bösartigkeit" in einer PCA-Situation bestehen bleibt. Werden die Koeffizienten / Belastungen / Gewichte / Eigenvektoren für einen bestimmten PC instabil / willkürlich / nicht eindeutig, wenn die Kovarianzmatrix singulär wird? Mich interessiert besonders der Fall, dass nur die erste Hauptkomponente erhalten bleibt und alle anderen als "Lärm" oder "etwas anderes" oder "unwichtig" abgetan werden.
Ich glaube nicht, dass dies der Fall ist, weil Ihnen nur ein paar Hauptkomponenten übrig bleiben, die null oder nahezu null Varianz haben.
Leicht zu erkennen ist dies im einfachen Extremfall mit 2 Variablen nicht der Fall - nehmen wir an, sie sind perfekt korreliert. Dann ist der erste PC die exakte lineare Beziehung, und der zweite PC ist für den ersten PC senkrecht, wobei alle PC-Werte für alle Beobachtungen gleich Null sind (dh Varianz Null). Ich frage mich, ob es allgemeiner ist.
quelle
Antworten:
Die Antwort könnte in noch einfacheren Begriffen gegeben werden: Die multiple Regression hat einen Schritt mehr als der pca, wenn sie in Bezug auf die lineare Algebra gesehen wird, und ab dem zweiten Schritt entsteht die Instabilität:
quelle
PCA ist oft ein Mittel zum Zweck; Dies führt entweder zu Eingaben in eine multiple Regression oder zur Verwendung in einer Clusteranalyse. Ich denke, Sie sprechen in Ihrem Fall davon, die Ergebnisse eines PCA zu verwenden, um eine Regression durchzuführen.
In diesem Fall besteht Ihr Ziel bei der Durchführung einer PCA darin, die Multikollinearität zu beseitigen und orthogonale Eingaben in eine Mehrfachregression zu erhalten. Es überrascht nicht, dass dies als Regression der Hauptkomponenten bezeichnet wird. Wenn hier alle Ihre ursprünglichen Eingaben orthogonal wären, würden Sie durch Ausführen einer PCA einen weiteren Satz orthogonaler Eingaben erhalten. Deshalb; Wenn Sie eine PCA durchführen, wird davon ausgegangen, dass Ihre Eingaben Multikollinearität aufweisen.
Verweise
Johnson & Wichern (2001). Angewandte multivariate statistische Analyse (6. Auflage). Prentice Hall.
quelle