Komponenten mit geringer Varianz in PCA, sind sie wirklich nur Rauschen? Gibt es eine Möglichkeit, dies zu testen?

18

Ich versuche zu entscheiden, ob eine Komponente eines PCA beibehalten werden soll oder nicht. Es gibt eine Unmenge von Kriterien, die auf der Größe des Eigenwerts basieren und z . B. hier oder hier beschrieben und verglichen werden .

In meiner Anwendung weiß ich jedoch, dass der kleine (est) Eigenwert im Vergleich zum großen (st) Eigenwert klein ist und die auf der Größe basierenden Kriterien alle den kleinen (est) ablehnen würden. Das will ich nicht. Was mich interessiert: Gibt es eine bekannte Methode, die die tatsächliche entsprechende Komponente des kleinen Eigenwerts berücksichtigt, in dem Sinne: Ist es wirklich "nur" Rauschen, wie es in allen Lehrbüchern enthalten ist, oder gibt es "etwas" von Potenzial? Interesse übrig? Wenn es sich wirklich um Rauschen handelt, entfernen Sie es, andernfalls behalten Sie es bei, unabhängig von der Größe des Eigenwerts.

Gibt es eine Art etablierten Zufalls- oder Verteilungstest für Komponenten in PCA, die ich nicht finden kann? Oder kennt jemand einen Grund, warum dies eine dumme Idee wäre?

Aktualisieren

Histogramme (grün) und normale Annäherungen (blau) von Komponenten in zwei Anwendungsfällen: einmal wahrscheinlich wirklich Rauschen, einmal wahrscheinlich nicht "nur" Rauschen (ja, die Werte sind klein, aber wahrscheinlich nicht zufällig). Der größte Singularwert ist in beiden Fällen ~ 160, der kleinste, dh dieser Singularwert, ist 0,0xx - viel zu klein für eine der Abschneidemethoden.

Was ich suche, ist eine Möglichkeit, dies zu formalisieren ...

wahrscheinlich wirklich "nur" Lärm wahrscheinlich kein Rauschen, kann aber interessante Bits enthalten

Daniel
quelle
2
Viele der Tests, auf die Sie sich beziehen, haben genau die Eigenschaft, nach der Sie fragen: Sie versuchen, "Rauschen" von "Signal" zu unterscheiden.
Whuber
2
Kürzlich habe ich mich für eine ähnliche Frage interessiert, aber für eine bestimmte Situation, in der für jeden Datenpunkt mehrere Messungen durchgeführt wurden. Siehe Anzahl der PCA-Komponenten auswählen, wenn für jeden Datenpunkt mehrere Stichproben verfügbar sind . Vielleicht trifft es auch auf Ihren Fall zu?
Amöbe sagt Reinstate Monica
Das Verwenden von Verteilungstests auf PCs, um über deren Zufälligkeit zu entscheiden, klingt als eine sehr interessante Idee (die ich noch nie angewendet habe). Ähnliches geschieht in ICA, das speziell nach maximal nicht-Gaußschen Komponenten sucht. PCA zu machen und dann Komponenten zu verwerfen, die "zu Gauß" sind, hat ICA-Charakter und könnte tatsächlich funktionieren!
Amöbe sagt Reinstate Monica

Antworten:

20

Eine Möglichkeit, die Zufälligkeit einer kleinen Hauptkomponente (PC) zu testen, besteht darin, sie wie ein Signal statt wie Rauschen zu behandeln: Versuchen Sie also, eine andere interessierende Variable damit vorherzusagen. Dies ist im Wesentlichen eine Hauptkomponenten-Regression (PCR) .

R2MSE

  • Ein chemisches Modell unter Verwendung der PCs 1, 3, 4, 6, 7 und 8 von insgesamt 9 ( Smith & Campbell, 1980 )
  • Ein Monsunmodell mit den PCs 8, 2 und 10 (in der Reihenfolge ihrer Wichtigkeit) von 10 ( Kung & Sharif, 1980 )
  • Ein Wirtschaftsmodell unter Verwendung der PCs 4 und 5 von 6 (Hill, Fomby, & Johnson, 1977)

Die PCs in den oben aufgelisteten Beispielen sind entsprechend der Rangfolge ihrer Eigenwerte nummeriert. Jolliffe (1982) beschreibt ein Wolkenmodell, bei dem die letzte Komponente den größten Beitrag leistet. Er kommt zu dem Schluss:

Die obigen Beispiele haben gezeigt, dass es nicht notwendig ist, obskure oder bizarre Daten zu finden, damit die letzten Hauptkomponenten bei der Regression der Hauptkomponenten wichtig sind. Vielmehr scheinen solche Beispiele in der Praxis eher verbreitet zu sein. Hill et al. (1977) geben eine gründliche und nützliche Diskussion über Strategien zur Auswahl von Hauptkomponenten, die die Idee der Auswahl allein auf der Grundlage der Größe der Varianz für immer begraben hätten sollen. Leider scheint dies nicht geschehen zu sein, und die Idee ist heute vielleicht weiter verbreitet als vor 20 Jahren.

SS

(p-1)Y.

X

Diese Antwort verdanke ich @Scortchi, der meine eigenen Missverständnisse über die PC-Auswahl in der PCR mit einigen sehr hilfreichen Kommentaren korrigierte , darunter: " Jolliffe (2010) bespricht andere Möglichkeiten der PC-Auswahl." Dieser Verweis kann ein guter Ort sein, um nach weiteren Ideen zu suchen.

Verweise

- Gunst, RF & Mason, RL (1977). Verzerrte Schätzung in der Regression: eine Bewertung unter Verwendung des mittleren quadratischen Fehlers. Journal of the American Statistical Association, 72 (359), 616–628.
- Hadi, AS & Ling, RF (1998). Einige warnende Hinweise zur Verwendung der Regression der Hauptkomponenten. The American Statistician, 52 (1), 15–19. Abgerufen von http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf .
- Hawkins, DM (1973). Zur Untersuchung alternativer Regressionen durch Hauptkomponentenanalyse. Applied Statistics, 22 (3), 275–286.
- Hill, RC, Fomby, TB und Johnson, SR (1977). Komponentenauswahlnormen für die Regression der Hauptkomponenten.Kommunikationen in der Statistik - Theorie und Methoden, 6 (4), 309–334.
- Hotelling, H. (1957). Die Beziehungen der neueren multivariaten statistischen Methoden zur Faktoranalyse. British Journal of Statistical Psychology, 10 (2), 69–79.
- Jackson, E. (1991). Ein Benutzerhandbuch für Hauptkomponenten . New York: Wiley.
- Jolliffe, IT (1982). Hinweis zur Verwendung von Hauptkomponenten in der Regression. Applied Statistics, 31 (3), 300–303. Abgerufen von http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
- Jolliffe, IT (2010).Hauptkomponentenanalyse (2. Aufl.). Springer.
- Kung, EC & Sharif, TA (1980). Regressionsprognose für den Beginn des Monsuns im indischen Sommer mit vorausgegangenen oberen Luftverhältnissen. Journal of Applied Meteorology, 19 (4), 370–380. Abgerufen von http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf .
- Lott, WF (1973). Der optimale Satz von Hauptkomponentenbeschränkungen für eine Regression der kleinsten Quadrate. Kommunikationen in der Statistik - Theorie und Methoden, 2 (5), 449–464.
- Mason, RL & Gunst, RF (1985). Auswahl der Hauptkomponenten in der Regression. Statistics & Probability Letters, 3 (6), 299–301.
- Massy, ​​WF (1965). Regression der Hauptkomponenten in der explorativen statistischen Forschung. Journal of the American Statistical Association, 60 (309), 234–256. Abgerufen von http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf .
- Smith, G. & Campbell, F. (1980). Eine Kritik einiger Ridge-Regressionsmethoden. Journal of the American Statistical Association, 75 (369), 74–81. Abgerufen von https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf .

Nick Stauner
quelle
4
... und es gibt keinerlei Garantie dafür, dass der Effekt, den Sie zur Lösung Ihres Problems benötigen, größer ist als bei anderen Effekten, die nur aus Rauschen bestehen. das Problem zur Hand. Ich habe Daten gesehen, bei denen 95% der Varianz durch physikalische Effekte auf Rauschen zurückzuführen waren ...
cbeleites unterstützt Monica
3
Sehr schöne Rezension, aber (Entschuldigung) Tempo Hadi & Ling, der die PCs auswählt, die aufgrund ihrer starken Beziehung zur Antwort in einer Regression verbleiben sollen , ist ebenso gefährlich wie die Auswahl der ursprünglichen Prädiktoren aufgrund ihrer starken Beziehung zur Antwort. Eine Kreuzvalidierung ist unabdingbar und eine Schrumpfung vorzuziehen. Persönlich würde ich eine vernünftige Verwendung von PCA zusammen mit Fachwissen vorziehen, um die Datenreduktion bei Prädiktoren zu steuern, die blind für die Reaktion sind, z.
Scortchi
2
+1 (vor langer Zeit) auf diese Antwort, aber nachdem ich diesen Thread jetzt durchgesehen habe, muss ich sagen, dass diese Antwort die ursprüngliche Frage fast überhaupt nicht beantwortet: OP fragte, ob man irgendwelche Verteilungstests für Komponenten verwenden kann, um zu beurteilen ihre Zufälligkeit. Siehe auch meinen letzten Kommentar zum OP.
Amöbe sagt Reinstate Monica
2

Wenn Sie sich mit Subspace-Clustering beschäftigen, ist PCA häufig eine schlechte Lösung, um die Antwort von @Nick Stauner zu ergänzen.

Bei der Verwendung von PCA geht es meistens um die Eigenvektoren mit den höchsten Eigenwerten, die die Richtungen darstellen, in die die Daten am stärksten "gedehnt" werden. Wenn Ihre Daten aus kleinen Unterbereichen bestehen, werden sie von PCA ernsthaft ignoriert, da sie nicht viel zur Gesamtvarianz der Daten beitragen.

Kleine Eigenvektoren sind also nicht immer reines Rauschen.

felipeduque
quelle