Was sind Hauptkomponentenbewertungen (PC-Bewertungen, PCA-Bewertungen)?
pca
definition
vrish88
quelle
quelle
Antworten:
Definieren wir zunächst eine Punktzahl.
John, Mike und Kate erhalten die folgenden Prozentsätze für Prüfungen in Mathematik, Naturwissenschaften, Englisch und Musik:
In diesem Fall gibt es insgesamt 12 Punkte. Jede Punktzahl repräsentiert die Prüfungsergebnisse für jede Person in einem bestimmten Fach. Eine Punktzahl in diesem Fall ist also einfach eine Darstellung der Schnittmenge zwischen einer Zeile und einer Spalte.
Definieren wir nun informell eine Hauptkomponente.
Können Sie die Daten in der obigen Tabelle einfach in einem 2D-Diagramm darstellen? Nein, denn es gibt vier Fächer (dh vier Variablen: Mathematik, Naturwissenschaften, Englisch und Musik):
Aber wie würden Sie 4 Themen darstellen?
Im Moment haben wir vier Variablen, die jeweils nur ein Thema repräsentieren. Eine Methode, die dies betrifft, könnte darin bestehen, die Subjekte in zwei neue Variablen zu kombinieren, die wir dann zeichnen können. Dies wird als mehrdimensionale Skalierung bezeichnet .
Die Hauptkomponentenanalyse ist eine Form der mehrdimensionalen Skalierung. Es ist eine lineare Transformation der Variablen in einen Raum mit niedrigeren Dimensionen, in dem die maximale Menge an Informationen über die Variablen erhalten bleibt. Dies würde zum Beispiel bedeuten, dass wir uns die Fächertypen ansehen könnten, für die jeder Schüler möglicherweise besser geeignet ist.
Eine Hauptkomponente ist daher eine Kombination der ursprünglichen Variablen nach einer linearen Transformation. In R ist dies:
Das gibt Ihnen so etwas (die ersten beiden Hauptkomponenten nur der Einfachheit halber):
Die erste Spalte zeigt hier die linearen Kombinationskoeffizienten, die die Hauptkomponente Nr. 1 definieren, und die zweite Spalte zeigt die Koeffizienten für die Hauptkomponente Nr. 2.
Was ist ein Hauptkomponenten-Score?
Es ist eine Punktzahl aus der Tabelle am Ende dieses Beitrags (siehe unten).
Die obige Ausgabe von R bedeutet, dass wir jetzt die Punktzahl jeder Person über alle Themen in einem 2D-Diagramm wie folgt darstellen können. Zuerst müssen wir die ursprünglichen Variablen zentrieren, die meine Subtraktionsspalte bedeutet:
Und dann, um lineare Kombinationen zu bilden, um PC1- und PC2- Scores zu erhalten :
Welches vereinfacht zu:
In der obigen Tabelle sind sechs Hauptkomponentenbewertungen aufgeführt . Sie können die Ergebnisse jetzt in einem 2D-Diagramm darstellen, um einen Eindruck von den Fächern zu erhalten, für die die einzelnen Schüler möglicherweise besser geeignet sind.
Die gleiche Ausgabe erhalten Sie in R durch Eingabe
prcomp(DF, scale = FALSE)$x
.EDIT 1: Hmm, ich hätte mir wahrscheinlich ein besseres Beispiel ausdenken können, und es steckt mehr dahinter als das, was ich hier angegeben habe, aber ich hoffe, dass Sie auf die Idee kommen.
EDIT 2: Volle Anerkennung an @drpaulbrewer für seinen Kommentar zur Verbesserung dieser Antwort.
quelle
apply(dtf, 1, function(x) sum(scale(x)))
prcomp
Ausgaben. Davor nicht.Die Hauptkomponentenanalyse (PCA) ist ein gängiger Ansatz zur Varianzanalyse bei multivariaten Daten. Sie haben Zufallsvariablen X1, X2, ... Xn, die alle in unterschiedlichem Maße (positiv oder negativ) korreliert sind, und Sie möchten ein besseres Verständnis der Vorgänge erlangen. PCA kann helfen.
Was PCA gibt, ist eine Änderung der Variablen in Y1, Y2, ..., Yn (dh die gleiche Anzahl von Variablen), die Linearkombinationen der Xs sind. Zum Beispiel könnte Y1 = 2,1 X1 - 1,76 X2 + 0,2 X3 sein ...
Das Ys die nette Eigenschaft, dass jedes von diesen null Korrelation miteinander hat. Besser noch, Sie erhalten sie in abnehmender Reihenfolge der Varianz. Also "erklärt" Y1 einen großen Teil der Varianz der ursprünglichen Variablen, Y2 etwas weniger und so weiter. In der Regel werden die Variablen nach den ersten paar Jahren etwas bedeutungslos. Die PCA-Punktzahl für eines der Xi ist nur der Koeffizient in jedem der Ys. In meinem früheren Beispiel beträgt die Punktzahl für X2 in der ersten Hauptkomponente (Y1) 1,76.
Die Art und Weise, wie PCA diese Magie ausführt, besteht darin, Eigenvektoren der Kovarianzmatrix zu berechnen.
Um ein konkretes Beispiel zu geben, stellen Sie sich vor, X1, ... X10 sind Veränderungen der Renditen von 1, 2, ... und 10-jährigen Schatzanleihen über einen bestimmten Zeitraum. Wenn Sie PCA berechnen, stellen Sie im Allgemeinen fest, dass die erste Komponente Punktzahlen für jede Bindung mit demselben Vorzeichen und ungefähr demselben Vorzeichen aufweist. Dies zeigt, dass die meisten Schwankungen der Anleiherenditen auf alles zurückzuführen sind, was sich auf die gleiche Weise bewegt: "Parallelverschiebungen" nach oben oder unten. Die zweite Komponente zeigt typischerweise eine "Versteilung" und eine "Abflachung" der Kurve und hat entgegengesetzte Vorzeichen für X1 und X10.
quelle
PC1 > PC2 > ... > PCn
und die Summe ihrer Varianzen gleich der Summe der Varianzen des anfänglichen Variablensatzes ist, wird PCA auf der Grundlage einer Kovarianzmatrix berechnet, dh Variablen werden standardisiert (SD = 1, VAR = 1).Angenommen, Sie haben eine Wolke von N Punkten in beispielsweise 3D (die in einem 100x3-Array aufgelistet werden kann). Anschließend passt die Hauptkomponentenanalyse (PCA) ein willkürlich ausgerichtetes Ellipsoid in die Daten ein. Die Hauptkomponentenbewertung ist die Länge der Durchmesser des Ellipsoids.
In der Richtung, in der der Durchmesser groß ist, variieren die Daten stark, während in der Richtung, in der der Durchmesser klein ist, die Daten geringfügig variieren. Wenn Sie Nd-Daten in ein 2D-Streudiagramm projizieren möchten, zeichnen Sie sie entlang der beiden größten Hauptkomponenten auf, da bei diesem Ansatz der größte Teil der Abweichungen in den Daten angezeigt wird.
quelle
Ich stelle mir Hauptkomponenten-Scores so lange als "im Grunde genommen bedeutungslos" vor, bis Sie ihnen tatsächlich eine Bedeutung geben. Das Interpretieren von PC-Ergebnissen in Bezug auf "Realität" ist eine knifflige Angelegenheit - und es kann wirklich keinen einzigartigen Weg geben, dies zu tun. Es hängt davon ab, was Sie über die einzelnen Variablen wissen, die in die PCA aufgenommen werden, und wie sie sich in Bezug auf Interpretationen zueinander verhalten.
Soweit es die Mathematik betrifft, interpretiere ich PC-Punkte gerne als Koordinaten jedes Punktes in Bezug auf die Hauptkomponentenachsen. In den Rohvariablen haben Sie also was ein "Punkt" im p-dimensionalen Raum ist. In diesen Koordinaten bedeutet dies, dass der Punkt entlang der -Achse einen Abstand vom Ursprung entfernt ist. Eine PCA beschreibt diesen "Punkt" im Grunde genommen anders als die "Rohvariablen". Wir haben also , wobei ist dasxi =(x1i,x2i,…,xpi) x1 x1i zi =(z1i,z2i,…,zpi)=A(xi−x¯¯¯) A p×p Matrix der Hauptkomponentengewichte (dh Eigenvektoren in jeder Zeile) und ist der "Schwerpunkt" der Daten (oder der mittlere Vektor der Datenpunkte).x¯¯¯
Die Eigenvektoren beschreiben also, wo sich die "Geraden" befinden, die die PCs beschreiben. Die Hauptkomponentenbewertungen beschreiben dann, wo jeder Datenpunkt auf jeder geraden Linie relativ zum "Mittelpunkt" der Daten liegt. Sie können sich die PC-Scores in Kombination mit den Gewichten / Eigenvektoren auch als eine Reihe von Rang-1-Vorhersagen für jeden der ursprünglichen Datenpunkte vorstellen, die folgende Form haben:
Wobei die Vorhersage für die te Beobachtung für die te Variable unter Verwendung des ten PC ist.x^(k)ji i j k
quelle
Die Hauptkomponenten einer Datenmatrix sind die Eigenvektor-Eigenwert-Paare ihrer Varianz-Kovarianz-Matrix. Im Wesentlichen sind sie die dekorrelierten Teile der Varianz. Jedes ist eine lineare Kombination der Variablen für eine Beobachtung - nehmen Sie an, Sie messen w, x, y, z an jedem von einer Reihe von Themen. Ihr erster PC könnte so ähnlich aussehen
0,5 w + 4 x + 5 y - 1,5 z
Die Belastungen (Eigenvektoren) betragen hier (0,5, 4, 5, -1,5). Die Punktzahl (Eigenwert) für jede Beobachtung ist der resultierende Wert, wenn Sie in der Beobachtung (w, x, y, z) substituieren und die Summe berechnen.
Dies ist praktisch, wenn Sie Dinge auf ihre Hauptkomponenten projizieren (z. B. für die Erkennung von Ausreißern), da Sie die Bewertungen wie bei allen anderen Daten nur auf jeder grafisch darstellen. Dies kann viel über Ihre Daten aussagen, wenn ein großer Teil der Varianz korreliert ist (== in den ersten paar PCs).
quelle
Sei indexiere die Zeilen und indexiere die Spalten. Angenommen, Sie linearisieren die Kombination von Variablen (Spalten):i=1,…,N j=1,…,M
Die obige Formel besagt grundsätzlich, dass Zeilenelemente mit einem bestimmten Wert (Ladungen) multipliziert und nach Spalten summiert werden sollen. Resultierende Werte ( Werte mal Beladung) sind Scores.Yc Y
Eine Hauptkomponente (PC) ist eine Linearkombination ) (Werte durch Spalten, die als Punktzahlen bezeichnet werden). Im Wesentlichen sollte der PC die wichtigsten Merkmale von Variablen (Spalten) darstellen. Ergo können Sie so viele PCs extrahieren, wie Variablen (oder weniger) vorhanden sind.Z1=(Z1,1,...,ZN,1
Eine Ausgabe von R auf PCA (ein falsches Beispiel) sieht folgendermaßen aus. PC1, PC2 ... sind Hauptkomponenten 1, 2 ... Das folgende Beispiel zeigt nur die ersten 8 Hauptkomponenten (von 17). Sie können auch andere Elemente aus der PCA extrahieren, z. B. Ladevorgänge und Partituren.
quelle
Hauptkomponentenbewertungen sind eine Gruppe von Bewertungen, die nach einer Hauptkomponentenanalyse (PCA) erhalten werden. In PCA werden die Beziehungen zwischen einer Gruppe von Bewertungen so analysiert, dass eine gleiche Anzahl neuer "imaginärer" Variablen (auch als Hauptkomponenten bezeichnet) erstellt wird. Die erste dieser neuen imaginären Variablen korreliert maximal mit allen ursprünglichen Variablengruppen. Das nächste ist etwas weniger korreliert und so weiter, bis Sie, wenn Sie alle Hauptkomponenten-Scores zur Vorhersage einer bestimmten Variablen aus der Anfangsgruppe verwenden, in der Lage wären, alle ihre Varianz zu erklären. Die Art und Weise, wie PCA vorgeht, ist komplex und unterliegt gewissen Einschränkungen. Dazu gehört die Einschränkung, dass die Korrelation zwischen zwei Hauptkomponenten (dh imaginären Variablen) Null ist; so tut es nicht
quelle