Was sind gute Metriken, um die Qualität einer PCA-Anpassung zu bewerten und die Anzahl der Komponenten auszuwählen?

10

Was ist eine gute Metrik zur Bewertung der Qualität der Hauptkomponentenanalyse (PCA)?

Ich habe diesen Algorithmus an einem Datensatz durchgeführt. Mein Ziel war es, die Anzahl der Funktionen zu reduzieren (die Informationen waren sehr redundant). Ich weiß, dass der Prozentsatz der aufbewahrten Varianz ein guter Indikator dafür ist, wie viele Informationen wir aufbewahren. Gibt es andere Informationsmetriken, mit denen ich sicherstellen kann, dass ich redundante Informationen entfernt und solche Informationen nicht "verloren" habe?

großer Baum
quelle
3
Genau genommen gibt es keine "redundanten" Informationen, es sei denn, Ihre ursprünglichen Daten waren perfekt kollinear. Normalerweise bleibt der Prozentsatz der Varianz erhalten ("wir haben die ersten fünf Hauptkomponenten verwendet, die 90% der Varianz ausmachten"). Ich bin daran interessiert, Alternativen zu sehen.
Stephan Kolassa
Da eines Ihrer Tags die Informationstheorie ist: Eine indirekte Methode zur Beurteilung, ob PCA funktioniert, besteht darin, die Annahmen zu überprüfen, unter denen die Informationstheorie angibt, dass sie für eine bestimmte Dimensionsreduktion einen geringen Informationsverlust aufweist. Wiki sagt, dass dies so ist, wenn Ihre Daten eine Summe aus Gaußschem Signal plus Gaußschem Rauschen sind. en.wikipedia.org/wiki/…
CloseToC

Antworten:

17

Ich gehe davon aus, dass ein Teil dieser Frage darin besteht, ob neben der kumulativen prozentualen Varianz (CPV) und dem ähnlichen Scree-Plot-Ansatz noch andere Metriken existieren. Die Antwort darauf ist ja, viele .

Ein großartiges Papier zu einigen Optionen ist Valle 1999:

Es geht um CPV, aber auch um Parallele Analyse, Kreuzvalidierung, Varianz des Rekonstruktionsfehlers (VRE), auf Informationskriterien basierende Methoden und mehr. Sie können der Empfehlung des Papiers nach dem Vergleich und der Verwendung des VRE folgen, aber die auf PRESS basierende Kreuzvalidierung funktioniert meiner Erfahrung nach auch gut und sie erzielen auch damit gute Ergebnisse. Nach meiner Erfahrung ist CPV bequem und einfach und leistet gute Arbeit, aber diese beiden Methoden sind normalerweise besser.

Es gibt andere Möglichkeiten, um zu bewerten, wie gut Ihr PCA-Modell ist, wenn Sie mehr über die Daten wissen. Eine Möglichkeit besteht darin, die geschätzten PCA-Belastungen mit den tatsächlichen zu vergleichen, wenn Sie sie kennen (was Sie in Simulationen tun würden). Dies kann erreicht werden, indem die Vorspannung der geschätzten Belastungen auf die wahren berechnet wird. Je größer Ihre Vorurteile sind, desto schlechter ist Ihr Modell. Informationen dazu finden Sie in diesem Dokument, in dem der Ansatz zum Vergleichen von Methoden verwendet wird. Es kann jedoch nicht in realen Datenfällen verwendet werden, in denen Sie die tatsächlichen PCA-Ladungen nicht kennen. Dies spricht weniger für die Anzahl der entfernten Komponenten als für die Verzerrung Ihres Modells aufgrund des Einflusses abgelegener Beobachtungen, dient jedoch weiterhin als Modellqualitätsmetrik.

Deathkill14
quelle
4
Link zu Valle, Li und Qin Papier
Zhubarb
3

Es gibt auch Maßnahmen, die auf informationstheoretischen Kriterien wie basieren

Rissanens MDL (und Variationen)

Nikos M.
quelle
@user: 45382 Ja, das ist eine andere. Es wird auch in dem Papier angesprochen, auf das Zhubarb verweist.
Deathkill14
@ Deathkill14 richtig Ich habe das Papier gelesen, informationstheoretische Maßnahmen werden erwähnt (in der Tat als gute Alternativen)
Nikos M.
Eine ausgezeichnete theoretische Arbeit zu MDL, MML und Bayesianismus: Vitany & Li, Ideale MDL und ihre Beziehung zum Bayesianismus citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580 . Auch andere Modellauswahlmethoden wie AIC und BIC sind effektive Implementierungen von MDL.
ggll