Ich verstehe, dass PCA zur Reduzierung der Dimensionalität verwendet wird, um Datensätze in 2D oder 3D zeichnen zu können. Ich habe aber auch Leute gesehen, die PCA als Vorverarbeitungsschritt in Klassifizierungsszenarien anwenden, in denen sie PCA anwenden, um die Anzahl der Merkmale zu reduzieren, und dann einige Hauptkomponenten (die Eigenvektoren der Kovarianzmatrix) als neue Merkmale verwenden.
Meine Fragen:
Welche Auswirkungen hat das auf die Klassifizierungsleistung?
Wann sollte ein solcher Vorverarbeitungsschritt angewendet werden?
Ich habe einen Datensatz mit 10 Merkmalen als reelle Zahlen und 600 binären Merkmalen, die kategoriale Merkmale darstellen, wobei eine Eins-zu-Viele-Codierung verwendet wird, um sie darzustellen. Wäre es sinnvoll, PCA hier anzuwenden und bessere Ergebnisse zu erzielen?
ps Wenn die Frage zu weit gefasst ist, wäre ich dankbar, wenn Sie ein Papier oder Tutorials bereitstellen, in denen die Details der Verwendung von PCA auf diese Weise besser erläutert werden.
ps Nachdem ich ein wenig gelesen hatte, stellte ich fest, dass es besser sein könnte, die latente semantische Analyse zu verwenden, um die Anzahl der binären Merkmale für die kategorialen Attribute zu reduzieren. Ich berühre also nicht die realwertigen Features, sondern verarbeite nur die binären Features vor und kombiniere dann die realwertigen Features mit den neuen Features und trainiere meinen Klassifikator. Was denken Sie?
quelle