Über die Funktionale Hauptkomponentenanalyse (FPCA) bin ich gestolpert und habe sie nie verstanden. Worum geht es?
Siehe "Eine Übersicht über die Analyse der funktionalen Hauptkomponenten" von Shang, 2011 , und ich zitiere:
PCA stößt bei der Analyse von Funktionsdaten aufgrund des "Fluches der Dimensionalität" auf ernsthafte Schwierigkeiten (Bellman 1961). Der "Fluch der Dimensionalität" rührt von der Datensparsamkeit im hochdimensionalen Raum her. Selbst wenn die geometrischen Eigenschaften von PCA gültig bleiben und numerische Techniken stabile Ergebnisse liefern, ist die Stichproben-Kovarianzmatrix manchmal eine schlechte Schätzung der Populations-Kovarianzmatrix. Um diese Schwierigkeit zu überwinden, bietet FPCA eine viel informativere Methode zur Untersuchung der Muster-Kovarianzstruktur als PCA [...]
Ich verstehe es einfach nicht. Was ist der Nachteil, den dieses Papier beschreibt? Ist PCA nicht die ultimative Methode, um mit Situationen wie dem "Fluch der Dimensionalität" umzugehen?
Ich finde "funktionierende PCA" eine unnötig verwirrende Vorstellung. Es ist überhaupt keine separate Sache, es ist eine Standard-PCA, die auf Zeitreihen angewendet wird.
Hier kann man definitiv die Standard-PCA anwenden. Offensichtlich ist der Autor in Ihrem Zitat besorgt, dass die resultierende Eigenzeitreihe zu verrauscht sein wird. Das kann tatsächlich passieren! Zwei offensichtliche Wege, um damit umzugehen, wären (a) die Glättung der resultierenden Eigenzeitreihe nach PCA oder (b) die Glättung der ursprünglichen Zeitreihe vor PCA.
Tutorials zu FPCA befassen sich in der Regel mit langwierigen Diskussionen darüber, wie PCA auf die Funktionsräume unendlicher Dimensionalität verallgemeinert werden kann, aber die praktische Relevanz davon ist mir völlig verborgen , da die Funktionsdaten in der Praxis immer zunächst diskretisiert werden.
Hier ist eine Illustration aus dem Lehrbuch "Functional Data Analysis" von Ramsay und Silverman, das die endgültige Monographie zur "Functional Data Analysis" einschließlich FPCA zu sein scheint:
Man kann sehen, dass PCA mit den "diskretisierten Daten" (Punkten) praktisch dasselbe ergibt wie FPCA mit entsprechenden Funktionen auf Fourier-Basis (Linien). Natürlich könnte man zuerst die diskrete PCA durchführen und dann eine Funktion auf derselben Fourier-Basis anpassen; es würde mehr oder weniger das gleiche Ergebnis liefern.
quelle
Ich habe mehrere Jahre mit Jim Ramsay an der FDA gearbeitet, daher kann ich vielleicht ein paar Klarstellungen zu @ amoebas Antwort hinzufügen. Ich denke, auf praktischer Ebene ist @amoeba im Grunde richtig. Zumindest kam ich zu diesem Schluss, nachdem ich FDA studiert hatte. Das FDA-Framework gibt jedoch einen interessanten theoretischen Einblick, warum das Glätten der Eigenvektoren mehr als nur ein Trick ist. Es stellt sich heraus, dass die Optimierung im Funktionsraum unter der Bedingung eines inneren Produkts, das eine Glättungsstrafe enthält, eine endlich dimensionale Lösung von Basissplines ergibt. Die FDA verwendet den unendlich dimensionalen Funktionsraum, für die Analyse ist jedoch keine unbegrenzte Anzahl von Dimensionen erforderlich. Es ist wie der Kernel-Trick in Gaußschen Prozessen oder SVMs. Eigentlich ist es dem Kernel-Trick sehr ähnlich.
Ramsays ursprüngliche Arbeit befasste sich mit Situationen, in denen die Hauptgeschichte in den Daten offensichtlich ist: Die Funktionen sind mehr oder weniger linear oder mehr oder weniger periodisch. Die dominanten Eigenvektoren der Standard-PCA spiegeln lediglich das Gesamtniveau der Funktionen und den linearen Trend (oder die Sinusfunktionen) wider und sagen uns im Grunde, was wir bereits wissen. Die interessanten Merkmale liegen in den Residuen, die jetzt mehrere Eigenvektoren vom oberen Ende der Liste sind. Und da jeder nachfolgende Eigenvektor zu den vorhergehenden orthogonal sein muss, hängen diese Konstrukte mehr und mehr von Artefakten der Analyse und weniger von relevanten Merkmalen der Daten ab. In der Faktoranalyse zielt die schräge Faktorrotation darauf ab, dieses Problem zu lösen. Ramsays Idee war es nicht, die Komponenten zu drehen, sondern die Definition der Orthogonalität so zu ändern, dass sie den Erfordernissen der Analyse besser entspricht. Dies bedeutete, dass Sie, wenn Sie sich mit periodischen Komponenten befassten, auf der Grundlage von glätten würdenD3- D , wodurch Sinus und Konsinus beseitigt werden. Wenn Sie einen linearen Trend entfernen wollten, würden Sie auf der Basis von glättenD2 Dies ergibt standardmäßige kubische Splines.
Man könnte einwenden, dass es einfacher wäre, den Trend mit OLS zu entfernen und die Reste dieser Operation zu untersuchen. Ich war nie davon überzeugt, dass der Mehrwert der FDA die enorme Komplexität der Methode wert ist. Aus theoretischer Sicht lohnt es sich jedoch, die damit verbundenen Fragen zu berücksichtigen. Alles, was wir mit den Daten machen, bringt die Dinge durcheinander. Die Residuen von OLS sind korreliert, auch wenn die ursprünglichen Daten unabhängig waren. Durch das Glätten einer Zeitreihe werden Autokorrelationen eingeführt, die nicht in der Rohserie enthalten waren. Die Idee der FDA war es, sicherzustellen, dass die Rückstände, die wir aus dem anfänglichen Detrending erhalten haben, für die Analyse des Interesses geeignet sind.
Sie müssen bedenken, dass die FDA in den frühen 80er Jahren gegründet wurde, als Spline-Funktionen aktiv untersucht wurden - denken Sie an Grace Wahba und ihr Team. Seitdem sind viele Ansätze für multivariate Daten aufgetaucht - wie SEM, Wachstumskurvenanalyse, Gaußsche Prozesse, Weiterentwicklungen in der stochastischen Prozesstheorie und viele mehr. Ich bin nicht sicher, ob die FDA der beste Ansatz für die darin behandelten Fragen bleibt. Auf der anderen Seite frage ich mich oft, ob die Autoren wirklich verstehen, was die FDA versucht hat, zu tun, wenn ich Anwendungen sehe, von denen behauptet wird, FDA zu sein.
quelle
Bei FPCA bin ich mir nicht sicher, aber eines muss ich bedenken: In extrem hohen Dimensionen gibt es viel mehr "Raum" und Punkte im Raum erscheinen gleichmäßig verteilt (dh alles ist weit von allem anderen entfernt). An diesem Punkt sieht die Kovarianzmatrix im wesentlichen gleichmäßig aus und ist sehr empfindlich gegenüber Rauschen. Es wird daher eine schlechte Schätzung der "wahren" Kovarianz. Vielleicht schafft es die FPCA irgendwie, aber ich bin mir nicht sicher.
quelle