Was ist eine gute Metrik zur Bewertung der Qualität der Hauptkomponentenanalyse (PCA)?
Ich habe diesen Algorithmus an einem Datensatz durchgeführt. Mein Ziel war es, die Anzahl der Funktionen zu reduzieren (die Informationen waren sehr redundant). Ich weiß, dass der Prozentsatz der aufbewahrten Varianz ein guter Indikator dafür ist, wie viele Informationen wir aufbewahren. Gibt es andere Informationsmetriken, mit denen ich sicherstellen kann, dass ich redundante Informationen entfernt und solche Informationen nicht "verloren" habe?
machine-learning
pca
data-mining
information-theory
großer Baum
quelle
quelle
Antworten:
Ich gehe davon aus, dass ein Teil dieser Frage darin besteht, ob neben der kumulativen prozentualen Varianz (CPV) und dem ähnlichen Scree-Plot-Ansatz noch andere Metriken existieren. Die Antwort darauf ist ja, viele .
Ein großartiges Papier zu einigen Optionen ist Valle 1999:
Auswahl der Anzahl der Hauptkomponenten: Die Varianz des Rekonstruktionsfehlerkriteriums im Vergleich zu anderen Methoden
Sergio Valle, Weihua Li und S. Joe Qin, Industrial & Engineering Chemistry Research 1999 38 (11), 4389-4401
Es geht um CPV, aber auch um Parallele Analyse, Kreuzvalidierung, Varianz des Rekonstruktionsfehlers (VRE), auf Informationskriterien basierende Methoden und mehr. Sie können der Empfehlung des Papiers nach dem Vergleich und der Verwendung des VRE folgen, aber die auf PRESS basierende Kreuzvalidierung funktioniert meiner Erfahrung nach auch gut und sie erzielen auch damit gute Ergebnisse. Nach meiner Erfahrung ist CPV bequem und einfach und leistet gute Arbeit, aber diese beiden Methoden sind normalerweise besser.
Es gibt andere Möglichkeiten, um zu bewerten, wie gut Ihr PCA-Modell ist, wenn Sie mehr über die Daten wissen. Eine Möglichkeit besteht darin, die geschätzten PCA-Belastungen mit den tatsächlichen zu vergleichen, wenn Sie sie kennen (was Sie in Simulationen tun würden). Dies kann erreicht werden, indem die Vorspannung der geschätzten Belastungen auf die wahren berechnet wird. Je größer Ihre Vorurteile sind, desto schlechter ist Ihr Modell. Informationen dazu finden Sie in diesem Dokument, in dem der Ansatz zum Vergleichen von Methoden verwendet wird. Es kann jedoch nicht in realen Datenfällen verwendet werden, in denen Sie die tatsächlichen PCA-Ladungen nicht kennen. Dies spricht weniger für die Anzahl der entfernten Komponenten als für die Verzerrung Ihres Modells aufgrund des Einflusses abgelegener Beobachtungen, dient jedoch weiterhin als Modellqualitätsmetrik.
quelle
Es gibt auch Maßnahmen, die auf informationstheoretischen Kriterien wie basieren
Rissanens MDL (und Variationen)
quelle