Ich folge hier einem Tutorial: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/ um ein besseres Verständnis von PCA zu erlangen.
Das Lernprogramm verwendet das Iris-Dataset und wendet eine Protokolltransformation vor PCA an:
Beachten Sie, dass wir im folgenden Code eine Protokolltransformation auf die kontinuierlichen Variablen anwenden, wie in [1] vorgeschlagen,
center
und im Aufruf zum Standardisieren der Variablen vor der Anwendung von PCA setzen undscale
gleich setzen .TRUE
prcomp
Könnte mir jemand im Klartext erklären, warum Sie zuerst die Protokollfunktion in den ersten vier Spalten des Iris-Datensatzes verwenden. Ich verstehe, dass es etwas damit zu tun hat, Daten relativ zu machen, aber ich bin verwirrt, was genau die Funktion von Protokoll, Mittelpunkt und Maßstab ist.
Der obige Verweis [1] bezieht sich auf Venables und Ripley, Modern Applied Statistics mit S-PLUS , Abschnitt 11.1, in dem kurz gesagt wird:
Bei den Daten handelt es sich um physikalische Messungen. Daher ist es eine fundierte Anfangsstrategie, auf der Log-Skala zu arbeiten. Dies wurde überall getan.
quelle
Antworten:
Der Iris-Datensatz ist ein gutes Beispiel für das Erlernen von PCA. Die ersten vier Spalten, die die Länge und Breite von Kelch- und Blütenblättern beschreiben, sind jedoch kein Beispiel für stark verzerrte Daten. Daher ändert die Protokolltransformation der Daten nicht viel an den Ergebnissen, da die resultierende Rotation der Hauptkomponenten durch die Protokolltransformation ziemlich unverändert bleibt.
In anderen Situationen ist die Protokolltransformation eine gute Wahl.
Wir führen PCA durch, um einen Einblick in die allgemeine Struktur eines Datensatzes zu erhalten. Wir zentrieren, skalieren und transformieren manchmal logarithmisch, um einige triviale Effekte herauszufiltern, die unseren PCA dominieren könnten. Der Algorithmus einer PCA ermittelt wiederum die Rotation jedes PCs, um die quadratischen Residuen zu minimieren, dh die Summe der quadratischen senkrechten Abstände von einer Probe zu den PCs. Große Werte haben tendenziell eine hohe Hebelwirkung.
Stellen Sie sich vor, Sie injizieren zwei neue Samples in die Irisdaten. Eine Blume mit 430 cm Blütenblattlänge und eine mit Blütenblattlänge von 0,0043 cm. Beide Blüten sind sehr abnormal und 100-mal größer bzw. 1000-mal kleiner als durchschnittliche Beispiele. Die Hebelwirkung der ersten Blume ist enorm, sodass die ersten PCs meist die Unterschiede zwischen der großen Blume und jeder anderen Blume beschreiben. Eine Häufung von Arten ist aufgrund dieses Ausreißers nicht möglich. Wenn die Daten log-transformiert werden, beschreibt der Absolutwert jetzt die relative Variation. Jetzt ist die kleine Blume die ungewöhnlichste. Trotzdem ist es möglich, alle Proben in einem Bild zusammenzufassen und eine gerechte Häufung der Arten zu gewährleisten. Schauen Sie sich dieses Beispiel an:
quelle
Nun, die andere Antwort gibt ein Beispiel, wenn die Log-Transformation verwendet wird, um den Einfluss von Extremwerten oder Ausreißern zu reduzieren.
Ein anderes allgemeines Argument tritt auf, wenn Sie versuchen, Daten zu analysieren, die multiplikativ und nicht additiv zusammengesetzt sind - PCA- und FA-Modell durch ihre mathematischen Eigenschaften, wie additive Zusammensetzungen. MultiplikativKompositionen treten im einfachsten Fall bei physikalischen Daten wie der Oberfläche und dem Volumen von Körpern (funktional) auf, abhängig von (zum Beispiel) den drei Parametern Länge, Breite, Tiefe. Man kann die Kompositionen eines historischen Beispiels der frühen PCA reproduzieren, ich denke, es heißt "Thurstone's Ball- (oder 'Cubes'-) Problem" oder ähnliches. Einmal hatte ich mit den Daten dieses Beispiels gespielt und festgestellt, dass die logarithmisch transformierten Daten ein viel besseres und klareres Modell für die Zusammensetzung der gemessenen Volumen- und Oberflächendaten mit den drei eindimensionalen Maßen ergaben.
Neben einer solchen einfachen Beispielen, wenn wir in der Sozialforschung Daten betrachten Interaktionen , dann denken wir ususally ihnen sowie multiplikativ zusammengesetzt Messungen von mehr Grundelemente. Wenn wir uns also Wechselwirkungen genauer ansehen, kann eine Log-Transformation ein besonders hilfreiches Werkzeug sein, um ein mathematisches Modell für die Zerlegung zu erhalten.
quelle