Auf die Gefahr hin, die Frage softwarespezifisch zu machen, und mit der Entschuldigung ihrer Allgegenwart und Eigenheiten möchte ich nach der Funktion biplot()
in R und insbesondere nach der Berechnung und Darstellung der entsprechenden, überlagerten Standardpfeile fragen zu den zugrunde liegenden Variablen.
[Um einige der Kommentare zu verstehen, hatten die ursprünglich veröffentlichten Handlungen ein Problem von geringem Interesse und werden jetzt gelöscht.]
.74752, .66424; -.74752, .66424
.biplot(name_of_the_PCA)
Aufruf in R dargestellt , was in diesem Fall der Fall istbiplot(PCA)
. Ich hatte die Daten zentriert und skaliert.Antworten:
Das Folgende stützt sich auf den Iris-Datensatz in R und insbesondere auf die ersten drei Variablen (Spalten) :
Sepal.Length, Sepal.Width, Petal.Length
.Ein Biplot kombiniert ein Belastungsdiagramm (nicht standardisierte Eigenvektoren) - in Beton die ersten beiden Belastungen - und ein Bewertungsdiagramm (gedrehte und erweiterte Datenpunkte, dargestellt in Bezug auf Hauptkomponenten). Unter Verwendung des gleichen Datensatzes beschreibt @amoeba 9 mögliche Kombinationen von PCA-Biplots basierend auf 3 möglichen Normalisierungen des Score-Plots der ersten und zweiten Hauptkomponente und 3 Normalisierungen des Ladeplots (Pfeile) der Anfangsvariablen. Um zu sehen, wie R mit diesen möglichen Kombinationen umgeht, ist es interessant, die
biplot()
Methode zu betrachten:Zuerst die lineare Algebra zum Kopieren und Einfügen bereit:
1. Reproduzieren des Ladeplots (Pfeile):
Hier hilft die geometrische Interpretation dieses Beitrags von @ttnphns sehr. Die Notation des Diagramms im Beitrag wurde beibehalten: steht für die Variable im Betreffraum . ist der entsprechende Pfeil, der letztendlich aufgetragen ist; und die Koordinaten und sind die Komponenten, die eine Variable in Bezug auf und :h ' a 1 a 2 V PC 1 PC 2V h′ a1 a2 V PC1 PC2
Sepal L.
Die Komponente der VariablenPC1
Sepal L.
in Bezug auf lautet dann:welche, wenn die Bewertungen in Bezug auf - nennen wir sie - standardisiert sind, so dass ihreS 1PC1 S1
Da ,∥V∥=∑x2−−−−√
Gleichfalls,
Zurück zu Gl. ,(1)
Die roten Pfeile von duplizieren und blau überlappen
biplot()
Sehenswürdigkeiten:
oder im R-Code:
oder sogar noch ...
Verbindung mit der geometrischen Erklärung von Ladungen durch @ttnphns oder diesem anderen informativen Beitrag auch durch @ttnphns .
Es gibt einen Skalierungsfaktor :
sqrt(nrow(X) - 1)
, der ein bisschen rätselhaft bleibt.2. Zeichnen des
biplot()
Punktediagramms (und der Pfeile gleichzeitig):Die Achsen werden auf die Einheitssumme der Quadrate skaliert, die dem ersten Diagramm der ersten Zeile auf @ amöbens Post entspricht , das reproduziert werden kann, indem die Matrix der svd-Zerlegung (dazu später mehr) - " Spalten von : Dies sind Hauptkomponenten, die auf die Einheitssumme der Quadrate skaliert sind. "U U
Bei der Biplot-Konstruktion spielen auf der unteren und oberen horizontalen Achse zwei verschiedene Skalen eine Rolle:
Die relative Skalierung ist jedoch nicht sofort ersichtlich und erfordert eine Untersuchung der Funktionen und Methoden:
biplot()
Zeichnet Scores als Spalten von in SVD, die orthogonale Einheitsvektoren sind:Während die
prcomp()
Funktion in R die auf ihre Eigenwerte skalierten Scores zurückgibt:Daher können wir die Varianz durch Teilen durch die Eigenwerte auf skalieren :1
Da die Summe der Quadrate jedoch , müssen wir durch dividieren, weil:1 n−1−−−−−√
Zu beachten ist, dass die Verwendung des Skalierungsfaktors später in geändert wird, wenn die Definition der Erklärung in der Tatsache zu liegen scheint, dassn−1−−−−−√ n−−√
lan
Nachdem Sie alle
if
Aussagen und andere Reinigungsmittel entfernt haben, gehen Siebiplot()
wie folgt vor:die wie erwartet die
biplot()
Ausgabe, wie sie direkt aufgerufen wird (rechtes Bildbiplot(PCA)
unten), in all ihren unberührten ästhetischen Mängeln reproduziert (rechtes Bild unten) :Sehenswürdigkeiten:
ratio
) bezieht . AS @amoeba Kommentare:quelle
R
habe Ihrer Frage ein Tag hinzugefügt , weil sich die verwirrende Angelegenheit (nämlich der Skalierungskoeffizient) als teilweise R-spezifisch erwiesen hat. Im Allgemeinen konnten Sie sich selbst davon überzeugen, dass das PCA-Biplot ein Overlay-Streudiagramm von Komponentenbewertungen (Zeilenkoordinaten) und Komponentenrichtungskoeffizienten (Spaltenkoordinaten) ist, und da verschiedene Beträge von Standardisierungen durch "Trägheit" (Varianz) auf jedes angewendet werden können von dem auch, so können verschiedene Blicke des Biplots entstehen. Hinzufügen: In der Regel (sinnvoller) werden Ladungen als Spaltenkoordinaten (Pfeile) angezeigt.