Ich habe PCA mit 17 quantitativen Variablen ausgeführt, um einen kleineren Satz von Variablen zu erhalten, dh Hauptkomponenten, die beim überwachten maschinellen Lernen zur Klassifizierung von Instanzen in zwei Klassen verwendet werden sollen. Nach PCA macht PC1 31% der Varianz in den Daten aus, PC2 17%, PC3 10%, PC4 8%, PC5 7% und PC6 6%.
Wenn ich jedoch die mittleren Unterschiede zwischen PCs zwischen den beiden Klassen betrachte, ist PC1 überraschenderweise kein guter Diskriminator zwischen den beiden Klassen. Verbleibende PCs sind gute Diskriminatoren. Außerdem wird PC1 irrelevant, wenn es in einem Entscheidungsbaum verwendet wird, was bedeutet, dass es nach dem Beschneiden des Baums nicht einmal im Baum vorhanden ist. Der Baum besteht aus PC2-PC6.
Gibt es eine Erklärung für dieses Phänomen? Kann etwas mit den abgeleiteten Variablen nicht stimmen?
Antworten:
Dies kann auch vorkommen, wenn die Variablen vor der PCA nicht auf Einheitsvarianz skaliert werden. Zum Beispiel für diese Daten (beachten Sie, dass die Skala nur von bis während von bis ):y −0.5 1 x −3 3
PC1 ist ungefähr und macht fast die gesamte Varianz aus, hat jedoch keine Unterscheidungskraft, während PC2 und perfekt zwischen den Klassen unterscheidet.x y
quelle
prcomp(x, center=T, scale=T)
was dasselbe ist wie (x-mean) / sd. In diesem Beispiel würden Sie feststellen, dass keine der Hauptkomponenten ein guter Diskriminator zwischen den Klassen ist. es funktioniert nur, wenn beide zusammen verwendet werden.Ich gehe davon aus, dass die Antwort und das Beispiel von @Flounderer dies implizieren, aber ich denke, es lohnt sich, dies zu formulieren. Die Hauptkomponentenanalyse (PCA) ist kennzeichnungsunabhängig. Alles, was es tut, ist, einige hochdimensionale Daten in einen anderen dimensionalen Raum umzuwandeln. Es könnte beispielsweise durch in Klassifizierungsversuchen helfen, Datensatz zu schaffen , die durch eine bestimmte Methode leichter abtrennbar ist. Dies ist jedoch nur ein Nebenprodukt (oder eine Nebenwirkung) von PCA.
quelle
Wenn wir eine Hauptkomponentenanalyse durchführen, entsprechen die Hauptkomponenten den Richtungen maximaler Variabilität. Sie garantieren keine maximale Unterscheidung oder Trennung zwischen Klassen.
Die zweite Komponente bietet Ihnen eine gute Klassifizierung. Daten in dieser Richtung ermöglichen eine bessere Unterscheidung zwischen Klassen. Wenn Sie eine lineare Diskriminanzanalyse (LDA) durchführen, erhalten Sie die besten orthogonalen Richtungskomponenten, die den Abstand zwischen den Klassen maximieren und den Abstand zwischen den Klassen minimieren.
Wenn Sie also LDA für die Daten anstelle von PCA ausführen, ist wahrscheinlich eine der allerersten Komponenten näher an PC6 als an PC1. Hoffe das hilft.
quelle