Normalerweise werden bei der Hauptkomponentenanalyse (PCA) die ersten PCs verwendet und die PCs mit niedriger Varianz fallen gelassen, da sie nicht viel von der Variation der Daten erklären.
Gibt es jedoch Beispiele, bei denen die PCs mit geringen Abweichungen nützlich sind (dh im Kontext der Daten verwendet werden, eine intuitive Erklärung haben usw.) und nicht weggeworfen werden sollten?
Antworten:
Hier ist ein cooler Auszug aus Jolliffe (1982) , den ich in meiner vorherigen Antwort auf die sehr ähnliche Frage " Komponenten mit geringer Varianz in PCA, sind sie wirklich nur Rauschen? Gibt es eine Möglichkeit, dies zu testen? ", Nicht erwähnt es ist ziemlich intuitiv.
Die drei Beispiele aus der Literatur, auf die im letzten Satz des zweiten Absatzes Bezug genommen wird, sind die drei, die ich in meiner Antwort auf die verknüpfte Frage erwähnt habe .
Referenz
Jolliffe, IT (1982). Hinweis zur Verwendung von Hauptkomponenten in der Regression. Applied Statistics, 31 (3), 300–303. Abgerufen von http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
quelle
Wenn Sie R haben, gibt es ein gutes Beispiel für die
crabs
Daten im MASS-Paket.Über 98% der Varianz werden von den ersten beiden PCs "erklärt". Wenn Sie diese Messungen jedoch tatsächlich gesammelt und untersucht haben, ist der dritte PC sehr interessant, da er eng mit der Krebsart verwandt ist. Aber es wird von PC1 (was anscheinend der Größe der Krabbe entspricht) und PC2 (was anscheinend dem Geschlecht der Krabbe entspricht) überflutet.
quelle
Hier sind zwei Beispiele aus meiner Erfahrung (Chemometrie, optische / Vibrations- / Raman-Spektroskopie):
Ich hatte kürzlich optische Spektroskopiedaten, bei denen> 99% der Gesamtvarianz der Rohdaten auf Änderungen des Hintergrundlichts zurückzuführen waren (Scheinwerfer mehr oder weniger intensiv auf den gemessenen Punkt, Leuchtstofflampen ein- / ausgeschaltet, mehr oder weniger Wolken vorher) Die Sonne). Nach einer Hintergrundkorrektur mit den optischen Spektren bekannter Einflussfaktoren (extrahiert von PCA aus den Rohdaten; zusätzliche Messungen zur Abdeckung dieser Variationen) zeigte sich der Effekt, an dem wir interessiert waren, an PC 4 und 5.
PC 1 und 3, wo aufgrund anderer Effekte in der gemessenen Probe und PC 2 korreliert mit der Erwärmung der Instrumentenspitze während der Messungen.
Bei einer anderen Messung wurde eine Linse ohne Farbkorrektur für den gemessenen Spektralbereich verwendet. Die chromatische Aberration führte zu Verzerrungen in den Spektren, die ca. 90% der Gesamtvarianz der vorverarbeiteten Daten (meist in PC 1 erfasst).
Für diese Daten brauchten wir eine Weile, um zu erkennen, was genau passiert war, aber der Wechsel zu einem besseren Objektiv löste das Problem für spätere Experimente.
(Ich kann keine Details zeigen, da diese Studien noch nicht veröffentlicht sind.)
quelle
Ich habe festgestellt, dass PCs mit geringer Varianz am hilfreichsten sind, wenn eine PCA in einer Kovarianzmatrix durchgeführt wird, in der die zugrunde liegenden Daten auf irgendeine Weise gruppiert oder gruppiert sind. Wenn eine der Gruppen eine wesentlich geringere durchschnittliche Varianz aufweist als die anderen Gruppen, wird der kleinste PC von dieser Gruppe dominiert. Möglicherweise haben Sie jedoch einen Grund, die Ergebnisse dieser Gruppe nicht wegzuwerfen.
In der Finanzbranche weisen Aktienrenditen eine jährliche Standardabweichung von ca. 15-25% auf. Veränderungen der Anleiherenditen weisen historisch gesehen eine viel geringere Standardabweichung auf. Wenn Sie eine PCA für die Kovarianzmatrix der Aktienrenditen und Änderungen der Anleiherenditen durchführen, spiegeln alle Top-PCs die Varianz der Aktien wider, und die kleinsten spiegeln die Varianz der Anleihen wider. Wenn Sie die PCs wegwerfen, die die Bindungen erklären, könnten Sie in Schwierigkeiten geraten. Beispielsweise können die Anleihen andere Verteilungseigenschaften aufweisen als Aktien (dünnere Schwänze, unterschiedliche zeitvariable Varianzmerkmale, unterschiedliche mittlere Umkehrung, Kointegration usw.). Abhängig von den Umständen kann es sehr wichtig sein, diese zu modellieren.
Wenn Sie eine PCA für die Korrelationsmatrix durchführen, sehen Sie möglicherweise mehr PCs, die Bindungen im oberen Bereich erklären.
quelle
In diesem Vortrag ( Folien ) diskutieren die Vortragenden ihre Verwendung von PCA, um zwischen Merkmalen mit hoher Variabilität und Merkmalen mit niedriger Variabilität zu unterscheiden.
Sie bevorzugen tatsächlich die Merkmale mit geringer Variabilität für die Erkennung von Anomalien, da eine signifikante Verschiebung in einer Dimension mit geringer Variabilität ein starker Indikator für anomales Verhalten ist. Das motivierende Beispiel lautet wie folgt:
quelle