PCA zur Korrelation oder Kovarianz: Ist eine PCA zur Korrelation jemals sinnvoll? [geschlossen]

32

Bei der Hauptkomponentenanalyse (PCA) kann man entweder die Kovarianzmatrix oder die Korrelationsmatrix wählen, um die Komponenten (aus ihren jeweiligen Eigenvektoren) zu finden. Diese liefern unterschiedliche Ergebnisse (PC-Ladungen und Scores), da die Eigenvektoren zwischen beiden Matrizen nicht gleich sind. Meines Wissens liegt dies daran, dass ein Rohdatenvektor und seine Standardisierung nicht über eine orthogonale Transformation in Beziehung gesetzt werden können. Mathematisch haben ähnliche Matrizen (dh durch orthogonale Transformation verwandt) die gleichen Eigenwerte, aber nicht notwendigerweise die gleichen Eigenvektoren.ZXZ

Dies wirft einige Schwierigkeiten in meinem Kopf auf:

  1. Ist PCA tatsächlich sinnvoll, wenn Sie für denselben Startdatensatz zwei unterschiedliche Antworten erhalten können und beide versuchen, dasselbe zu erreichen (= Richtungen maximaler Varianz zu finden)?

  2. Bei Verwendung des Korrelationsmatrix-Ansatzes wird jede Variable vor der Berechnung der PCs durch ihre eigene individuelle Standardabweichung standardisiert (skaliert). Wie ist es dann noch sinnvoll, die Richtungen der maximalen Varianz zu finden, wenn die Daten zuvor bereits unterschiedlich skaliert / komprimiert wurden? Ich weiß, dass die korrelationsbasierte PCA sehr praktisch ist (standardisierte Variablen sind dimensionslos, sodass ihre linearen Kombinationen hinzugefügt werden können; andere Vorteile basieren auch auf Pragmatismus), aber ist sie richtig?

Mir scheint, dass kovarianzbasierte PCA die einzig richtige ist (auch wenn sich die Varianzen der Variablen stark unterscheiden), und dass korrelationsbasierte PCA auch nicht verwendet werden sollten, wenn diese Version nicht verwendet werden kann.

Ich weiß, dass es diesen Thread gibt: PCA auf Korrelation oder Kovarianz? - aber es scheint sich nur darauf zu konzentrieren, eine pragmatische Lösung zu finden, die auch eine algebraisch korrekte sein kann oder nicht.

Lucozade
quelle
4
Ich werde ehrlich sein und Ihnen sagen, dass ich irgendwann aufgehört habe, Ihre Frage zu lesen. PCA macht Sinn. Ja, die Ergebnisse können unterschiedlich sein, je nachdem, ob Sie die Korrelations- oder die Varianz / Kovarianz-Matrix verwenden. Korrelationsbasiertes PCA wird bevorzugt, wenn Ihre Variablen in verschiedenen Maßstäben gemessen werden, dies jedoch nicht das Ergebnis dominieren soll. Stellen Sie sich vor, Sie haben eine Reihe von Variablen im Bereich von 0 bis 1 und dann einige mit sehr großen Werten (relativ gesehen 0 bis 1000), dann dominiert die große Varianz, die mit der zweiten Gruppe von Variablen verbunden ist.
Patrick
4
Aber das ist auch bei vielen anderen Techniken der Fall und ich denke, Patricks Argument ist vernünftig. Es war auch nur ein Kommentar, kein Grund, aggressiv zu werden. Warum würden Sie im Allgemeinen davon ausgehen, dass es einen wirklich „algebraisch“ korrekten Weg gibt, um das Problem anzugehen?
Gala
5
Vielleicht denken Sie falsch über PCA: Es handelt sich nur um eine Transformation, sodass es keine Frage der Richtigkeit oder Unrichtigkeit gibt oder sich auf Annahmen über das Datenmodell stützt - im Gegensatz zu etwa einer Regression oder einer Faktorenanalyse.
Scortchi
5
Der Kern dieser Angelegenheit scheint in einem Missverständnis darüber zu liegen, was Standardisierung bewirkt und wie PCA funktioniert. Dies ist verständlich, da für ein gutes Verständnis von PCA die Visualisierung höherdimensionaler Formen erforderlich ist. Ich würde behaupten, dass diese Frage, wie viele andere Fragen, die auf einer Art Missverständnis beruhen, eine gute ist und offen bleiben sollte, da ihre Antwort (en) Wahrheiten enthüllen können, die viele Menschen zuvor möglicherweise nicht vollständig gewürdigt haben.
whuber
6
PCA "behauptet" nichts. Die Leute behaupten, dass PCA sehr unterschiedlich ist, je nach Fachgebiet. Einige dieser Verwendungen mögen albern oder fragwürdig sein, aber es erscheint nicht sehr aufschlussreich anzunehmen, dass eine einzelne Variante der Technik die „algebraisch korrekte“ sein muss, ohne dass auf den Kontext oder das Ziel der Analyse Bezug genommen wird.
Gala

Antworten:

29

Ich hoffe, diese Antworten auf Ihre beiden Fragen werden Ihre Besorgnis beruhigen:

  1. Eine Korrelationsmatrix ist eine Kovarianzmatrix der standardisierten (dh nicht nur zentrierten, sondern auch neu skalierten) Daten. das heißt, eine Kovarianzmatrix (als ob) eines anderen , anderen Datensatzes. So ist es natürlich und es sollte Sie nicht stören, dass die Ergebnisse unterschiedlich sind.
  2. Ja, es ist sinnvoll, die Richtungen der maximalen Varianz mit standardisierten Daten zu finden - sie sind sozusagen die Richtungen der "Korrelation", nicht der "Kovarianz". Das heißt, nachdem die Auswirkungen ungleicher Varianzen - der ursprünglichen Variablen - auf die Form der multivariaten Datenwolke beseitigt wurden.

Nächster Text und Bilder hinzugefügt von @whuber (Ich danke ihm. Siehe auch meinen Kommentar unten)

Das folgende zweidimensionale Beispiel zeigt, warum es immer noch sinnvoll ist, die Hauptachsen standardisierter Daten zu lokalisieren (siehe Abbildung rechts). Beachten Sie, dass im rechten Diagramm die Wolke immer noch eine "Form" hat, obwohl die Abweichungen entlang der Koordinatenachsen jetzt genau gleich sind (auf 1,0). In ähnlicher Weise hat die standardisierte Punktwolke in höheren Dimensionen eine nicht kugelförmige Form, obwohl die Varianzen entlang aller Achsen genau gleich sind (1,0). Die Hauptachsen (mit ihren entsprechenden Eigenwerten) beschreiben diese Form. Eine andere Möglichkeit, dies zu verstehen, besteht darin, zu beachten, dass die gesamte Neuskalierung und Verschiebung, die beim Standardisieren der Variablen stattfindet, nur in den Richtungen der Koordinatenachsen und nicht in den Hauptrichtungen selbst erfolgt.

Zahl

Das, was hier passiert, ist geometrisch so intuitiv und klar, dass es eine Strecke wäre, dies als "Black-Box-Operation" zu bezeichnen: Im Gegenteil, Standardisierung und PCA sind einige der grundlegendsten und routinemäßigsten Dinge, die wir mit Daten in der richtigen Reihenfolge tun um sie zu verstehen.


Fortsetzung von @ttnphns

Wann würde man es vorziehen, eine PCA (oder eine Faktoranalyse oder eine andere ähnliche Art der Analyse) für Korrelationen (dh für z-standardisierte Variablen) anstelle von Kovarianzen (dh für zentrierte Variablen) durchzuführen ?

  1. Wenn die Variablen verschiedene Maßeinheiten sind. Das ist klar.
  2. Wenn man will, dass die Analyse nur gerade und lineare Assoziationen widerspiegelt . Pearson r ist nicht nur die Kovarianz zwischen den nicht berechneten Variablen (Varianz = 1); es ist plötzlich das Maß für die Stärke der linearen Beziehung, während der übliche Kovarianzkoeffizient sowohl für die lineare als auch für die monotone Beziehung empfänglich ist.
  3. Wenn man möchte, dass die Assoziationen die relative Abweichung (vom Mittelwert) und nicht die rohe Abweichung widerspiegeln . Die Korrelation basiert auf Verteilungen, deren Spreads, während die Kovarianz auf der ursprünglichen Messskala basiert. Wenn ich die psychopathologischen Profile von Patienten anhand von Faktoren analysieren würde, die von Psychiatern anhand eines klinischen Fragebogens, der aus Likert-artigen Elementen besteht, bewertet wurden, würde ich Kovarianzen vorziehen. Weil von den Profis nicht erwartet wird, dass sie die Ratingskala intrapsychisch verzerren. Wenn ich andererseits die Selbstporträts der Patienten anhand desselben Fragebogens analysieren würde, würde ich wahrscheinlich Korrelationen auswählen. Da von Laien erwartet wird, dass sie relative "andere Personen" sind, "die Mehrheit" "zulässige Abweichung" Lupe, die die Bewertungsskala für eine "schrumpft" oder "streckt".
ttnphns
quelle
1
1. Sorry, aber das stört sehr. Für eine externe Person ist die Standardisierung eine Black-Box-Operation, die Teil der PCA-Vorkonditionierung von Daten ist (auch in ICA). Er möchte eine Antwort für seine (Roh-) Eingabedaten, insbesondere wenn es sich um physikalische (dimensionierte) Daten handelt, für die die PCA-Ausgabe physikalisch interpretiert werden muss (dh auch in Bezug auf nicht standardisierte Variablen).
Lucozade
1
Ihre letzte Überarbeitung scheint die Behauptung zu sein, dass "kovarianzbasierte PCA die einzig wirklich richtige ist". Da die Gesamtheit der bisherigen Antworten im Wesentlichen "Nein; falsche Denkweise; und hier ist der Grund" lautet, ist es schwierig zu wissen, wie Sie die Diskussion gegen solch überwältigende Meinungsverschiedenheiten steuern wollen.
Nick Cox
4
@ Lucozade: Ich war verwirrt über Ihre Beschreibung Ihrer Anwendung: - Wie empfiehlt PCA etwas? Wie haben Sie die Leistung gemessen ? Ähnliches gilt für Ihren letzten Kommentar: - Das Optimum für was?
Scortchi
5
@Lucozade: In der Tat, hör bitte zu, was Scortchi gesagt hat, du scheinst weiterhin Spooks zu jagen. PCA ist einfach eine spezielle Form der Rotation von Daten im Raum. Es macht immer optimal, was es mit den Eingabedaten macht. Das cov-corr-Dilemma ist pragmatisch und basiert auf der Datenvorverarbeitung und wird auf dieser Ebene gelöst, nicht auf der PCA-Ebene.
TTNPHNS
1
@Lucozade: Es wäre meine (nicht fachkundige) Meinung, basierend auf Ihrer Antwort an mich, dass Sie in Ihrem speziellen Bedürfnis zu Recht eine cov-basierte PCA wünschen. Auch hier sind Ihre Variablen in Bezug auf Daten / Messtyp (gleicher Maschinentyp und alle Daten in Volt) alle homogen. Für mich ist Ihr Beispiel eindeutig ein Fall, in dem cov-PCA korrekt ist, aber bitte beachten Sie, dass dies nicht immer der Fall ist, und ich denke, dass dies der wichtige Punkt in diesem Thread ist (die Wahl von cor v. Cov ist fallspezifisch und erforderlich) um von der Person bestimmt zu werden, die die Daten und die Anwendung am besten versteht). Viel Glück bei Ihrer Recherche!
Patrick
6

Vom praktischen Standpunkt aus gesehen - hier möglicherweise unbeliebt -: Wenn Sie Daten in verschiedenen Maßstäben messen, sollten Sie eine Korrelation verwenden („UV-Skalierung“, wenn Sie Chemiker sind), aber wenn die Variablen im gleichen Maßstab sind und die Größe von Bedeutung ist (zB mit spektroskopischen Daten), dann ist Kovarianz (nur Zentrieren der Daten) sinnvoller. PCA ist eine skalierungsabhängige Methode, und auch die Protokolltransformation kann bei stark verzerrten Daten hilfreich sein.

Meiner bescheidenen Meinung nach, basierend auf 20 Jahren praktischer Anwendung der Chemometrie, müssen Sie ein wenig experimentieren und herausfinden, was für Ihre Art von Daten am besten funktioniert. Letztendlich müssen Sie in der Lage sein, Ihre Ergebnisse zu reproduzieren und die Vorhersehbarkeit Ihrer Schlussfolgerungen zu beweisen. Wie Sie dorthin gelangen, ist oft ein Fall von Versuch und Irrtum. Entscheidend ist jedoch, dass das, was Sie tun, dokumentiert und reproduzierbar ist.

Kennzeichen
quelle
4
Der praktische Ansatz, den Sie hier zu vertreten scheinen, läuft darauf hinaus, - wenn sowohl Kovarianzen als auch Korrelationen gerechtfertigt sind - "beides zu versuchen und zu sehen, was am besten funktioniert". Diese reine empirische Haltung verbirgt die Tatsache, dass jede Wahl mit ihren eigenen Annahmen oder Paradigmen über die Realität zusammenhängt, die der Forscher im Voraus kennen sollte, auch wenn er versteht, dass er eine von ihnen völlig willkürlich bevorzugt. Bei der Auswahl von "Was am besten funktioniert" wird das Gefühl des Vergnügens, die Narkomanie, großgeschrieben.
TTNPHNS
-2

xis2(x1/s1)+(x2/s2)=(x1+x2)/sx1+x2s1s2grad. Es scheint wenig Sinn zu machen, die Varianz ihrer linearen Kombination zu maximieren. In diesem Fall bietet PCA eine Lösung für einen anderen Datensatz, wobei jede Variable unterschiedlich skaliert wird. Wenn Sie anschließend die Standardisierung aufheben (bei Verwendung von corr_PCA), ist dies möglicherweise in Ordnung und erforderlich. Wenn Sie jedoch die rohe corr_PCA-Lösung so wie sie ist nehmen und dort anhalten, erhalten Sie eine mathematische Lösung, die sich jedoch nicht auf die physikalischen Daten bezieht. Da eine spätere Entnormierung dann zumindest obligatorisch erscheint (dh das 'Entspannen' der Achsen um die inversen Standardabweichungen), könnte zunächst cov_PCA verwendet werden. Wenn Sie jetzt noch lesen, bin ich beeindruckt! Zum Schluss zitiere ich zunächst aus Jolliffes Buch, S. 22. 42, das ist der Teil, der mich betrifft:"Es darf jedoch nicht vergessen werden, dass Korrelationsmatrix-PCs, wenn sie in Bezug auf die ursprünglichen Variablen ausgedrückt werden, immer noch lineare Funktionen von x sind, die die Varianz in Bezug auf die standardisierten Variablen und nicht in Bezug auf die ursprünglichen Variablen maximieren." Wenn Sie der Meinung sind, dass ich dies oder seine Implikationen falsch interpretiere, ist dieser Auszug möglicherweise ein guter Schwerpunkt für die weitere Diskussion.

Lucozade
quelle
3
Es ist so amüsant, dass Ihre eigene Antwort, die im Einklang mit allem steht, was die Leute hier Ihnen vermitteln wollten, für Sie ungeklärt bleibt. Sie streiten sich immer noch There seems little pointin PCA über Korrelationen. Nun, wenn Sie in der Nähe von Rohdaten bleiben müssen ("physische Daten", wie Sie es seltsamerweise nennen), sollten Sie wirklich keine Korrelationen verwenden, da sie anderen ("verzerrten") Daten entsprechen.
TTNPHNS
2
(Forts.) Jolliffes Zitat besagt, dass PCs, die durch Korrelationen erhalten wurden, jemals sie selbst sein werden und nicht in PCs mit Kovarianzen "zurück" werden können, obwohl Sie sie als lineare Kombinationen der ursprünglichen Variablen wieder ausdrücken können. So betont Jolliffe die Idee, dass PCA-Ergebnisse vollständig von der Art der verwendeten Vorverarbeitung abhängen und dass es keine "echten", "echten" oder "universellen" PCs gibt ...
ttnphns
2
(Forts.) Tatsächlich sprechen mehrere Zeilen unter Jolliffe von einer weiteren "Form" von PCA - PCA auf X'XMatrix. Dieses Formular ist den Originaldaten sogar "näher" als cov-PCA, da keine Zentrierung der Variablen vorgenommen wird. Und die Ergebnisse sind in der Regel völlig unterschiedlich . Sie können auch PCA mit Cosinus durchführen. Menschen machen PCA auf allen Versionen der SSCP-Matrix , obwohl am häufigsten Kovarianzen oder Korrelationen verwendet werden.
TTNPHNS
3
Dieser Antwort liegt die implizite Annahme zugrunde, dass die Einheiten, in denen Daten gemessen werden, eine intrinsische Bedeutung haben. Dies ist selten der Fall: Wir können wählen, die Länge in Angström, Parsec oder irgendetwas anderem und die Zeit in Pikosekunden oder Jahrtausenden zu messen, ohne die Bedeutung der Daten um ein Jota zu ändern . Die Änderungen, die beim Übergang von der Kovarianz zur Korrelation vorgenommen werden, sind lediglich Änderungen von Einheiten (die im Übrigen besonders empfindlich auf abgelegene Daten reagieren). Dies legt nahe , das Problem nicht Kovarianz gegen Korrelation, sondern fruchtbare Wege zu finden , um die Daten für die Analyse zum Ausdruck bringen.
Whuber
3
@ttnphns Ich bleibe bei der "bloßen", danke. Unabhängig davon, ob die Implikationen "tiefgreifend" sind oder nicht, bleibt die Tatsache bestehen, dass die Standardisierung einer Variablen buchstäblich eine affine Umformulierung ihrer Werte ist: eine Änderung ihrer Maßeinheiten. Die Bedeutung dieser Beobachtung liegt in ihren Implikationen für einige Behauptungen, die in diesem Thread auftauchen, von denen die auffälligste "kovarianzbasierte PCA ist die einzig wirklich richtige". Eine Vorstellung von Korrektheit, die letztendlich von einem im Wesentlichen willkürlichen Aspekt der Daten abhängt - wie wir sie aufschreiben -, kann nicht richtig sein.
Whuber