Bei der Hauptkomponentenanalyse (PCA) kann man entweder die Kovarianzmatrix oder die Korrelationsmatrix wählen, um die Komponenten (aus ihren jeweiligen Eigenvektoren) zu finden. Diese liefern unterschiedliche Ergebnisse (PC-Ladungen und Scores), da die Eigenvektoren zwischen beiden Matrizen nicht gleich sind. Meines Wissens liegt dies daran, dass ein Rohdatenvektor und seine Standardisierung nicht über eine orthogonale Transformation in Beziehung gesetzt werden können. Mathematisch haben ähnliche Matrizen (dh durch orthogonale Transformation verwandt) die gleichen Eigenwerte, aber nicht notwendigerweise die gleichen Eigenvektoren.Z
Dies wirft einige Schwierigkeiten in meinem Kopf auf:
Ist PCA tatsächlich sinnvoll, wenn Sie für denselben Startdatensatz zwei unterschiedliche Antworten erhalten können und beide versuchen, dasselbe zu erreichen (= Richtungen maximaler Varianz zu finden)?
Bei Verwendung des Korrelationsmatrix-Ansatzes wird jede Variable vor der Berechnung der PCs durch ihre eigene individuelle Standardabweichung standardisiert (skaliert). Wie ist es dann noch sinnvoll, die Richtungen der maximalen Varianz zu finden, wenn die Daten zuvor bereits unterschiedlich skaliert / komprimiert wurden? Ich weiß, dass die korrelationsbasierte PCA sehr praktisch ist (standardisierte Variablen sind dimensionslos, sodass ihre linearen Kombinationen hinzugefügt werden können; andere Vorteile basieren auch auf Pragmatismus), aber ist sie richtig?
Mir scheint, dass kovarianzbasierte PCA die einzig richtige ist (auch wenn sich die Varianzen der Variablen stark unterscheiden), und dass korrelationsbasierte PCA auch nicht verwendet werden sollten, wenn diese Version nicht verwendet werden kann.
Ich weiß, dass es diesen Thread gibt: PCA auf Korrelation oder Kovarianz? - aber es scheint sich nur darauf zu konzentrieren, eine pragmatische Lösung zu finden, die auch eine algebraisch korrekte sein kann oder nicht.
quelle
Antworten:
Ich hoffe, diese Antworten auf Ihre beiden Fragen werden Ihre Besorgnis beruhigen:
Nächster Text und Bilder hinzugefügt von @whuber (Ich danke ihm. Siehe auch meinen Kommentar unten)
Das folgende zweidimensionale Beispiel zeigt, warum es immer noch sinnvoll ist, die Hauptachsen standardisierter Daten zu lokalisieren (siehe Abbildung rechts). Beachten Sie, dass im rechten Diagramm die Wolke immer noch eine "Form" hat, obwohl die Abweichungen entlang der Koordinatenachsen jetzt genau gleich sind (auf 1,0). In ähnlicher Weise hat die standardisierte Punktwolke in höheren Dimensionen eine nicht kugelförmige Form, obwohl die Varianzen entlang aller Achsen genau gleich sind (1,0). Die Hauptachsen (mit ihren entsprechenden Eigenwerten) beschreiben diese Form. Eine andere Möglichkeit, dies zu verstehen, besteht darin, zu beachten, dass die gesamte Neuskalierung und Verschiebung, die beim Standardisieren der Variablen stattfindet, nur in den Richtungen der Koordinatenachsen und nicht in den Hauptrichtungen selbst erfolgt.
Das, was hier passiert, ist geometrisch so intuitiv und klar, dass es eine Strecke wäre, dies als "Black-Box-Operation" zu bezeichnen: Im Gegenteil, Standardisierung und PCA sind einige der grundlegendsten und routinemäßigsten Dinge, die wir mit Daten in der richtigen Reihenfolge tun um sie zu verstehen.
Fortsetzung von @ttnphns
Wann würde man es vorziehen, eine PCA (oder eine Faktoranalyse oder eine andere ähnliche Art der Analyse) für Korrelationen (dh für z-standardisierte Variablen) anstelle von Kovarianzen (dh für zentrierte Variablen) durchzuführen ?
quelle
Vom praktischen Standpunkt aus gesehen - hier möglicherweise unbeliebt -: Wenn Sie Daten in verschiedenen Maßstäben messen, sollten Sie eine Korrelation verwenden („UV-Skalierung“, wenn Sie Chemiker sind), aber wenn die Variablen im gleichen Maßstab sind und die Größe von Bedeutung ist (zB mit spektroskopischen Daten), dann ist Kovarianz (nur Zentrieren der Daten) sinnvoller. PCA ist eine skalierungsabhängige Methode, und auch die Protokolltransformation kann bei stark verzerrten Daten hilfreich sein.
Meiner bescheidenen Meinung nach, basierend auf 20 Jahren praktischer Anwendung der Chemometrie, müssen Sie ein wenig experimentieren und herausfinden, was für Ihre Art von Daten am besten funktioniert. Letztendlich müssen Sie in der Lage sein, Ihre Ergebnisse zu reproduzieren und die Vorhersehbarkeit Ihrer Schlussfolgerungen zu beweisen. Wie Sie dorthin gelangen, ist oft ein Fall von Versuch und Irrtum. Entscheidend ist jedoch, dass das, was Sie tun, dokumentiert und reproduzierbar ist.
quelle
quelle
There seems little point
in PCA über Korrelationen. Nun, wenn Sie in der Nähe von Rohdaten bleiben müssen ("physische Daten", wie Sie es seltsamerweise nennen), sollten Sie wirklich keine Korrelationen verwenden, da sie anderen ("verzerrten") Daten entsprechen.X'X
Matrix. Dieses Formular ist den Originaldaten sogar "näher" als cov-PCA, da keine Zentrierung der Variablen vorgenommen wird. Und die Ergebnisse sind in der Regel völlig unterschiedlich . Sie können auch PCA mit Cosinus durchführen. Menschen machen PCA auf allen Versionen der SSCP-Matrix , obwohl am häufigsten Kovarianzen oder Korrelationen verwendet werden.