Funktionale Hauptkomponentenanalyse (FPCA): Worum geht es?

21

Über die Funktionale Hauptkomponentenanalyse (FPCA) bin ich gestolpert und habe sie nie verstanden. Worum geht es?

Siehe "Eine Übersicht über die Analyse der funktionalen Hauptkomponenten" von Shang, 2011 , und ich zitiere:

PCA stößt bei der Analyse von Funktionsdaten aufgrund des "Fluches der Dimensionalität" auf ernsthafte Schwierigkeiten (Bellman 1961). Der "Fluch der Dimensionalität" rührt von der Datensparsamkeit im hochdimensionalen Raum her. Selbst wenn die geometrischen Eigenschaften von PCA gültig bleiben und numerische Techniken stabile Ergebnisse liefern, ist die Stichproben-Kovarianzmatrix manchmal eine schlechte Schätzung der Populations-Kovarianzmatrix. Um diese Schwierigkeit zu überwinden, bietet FPCA eine viel informativere Methode zur Untersuchung der Muster-Kovarianzstruktur als PCA [...]

Ich verstehe es einfach nicht. Was ist der Nachteil, den dieses Papier beschreibt? Ist PCA nicht die ultimative Methode, um mit Situationen wie dem "Fluch der Dimensionalität" umzugehen?

Dov
quelle

Antworten:

7

Genau, wie Sie in der Frage angeben und wie @tdc in seiner Antwort angibt, ist die Kovarianzmatrix bei extrem hohen Dimensionen, auch wenn die geometrischen Eigenschaften von PCA gültig bleiben, keine gute Schätzung der realen Populationskovarianz mehr.


Es gibt eine sehr interessante Veröffentlichung "Functional Principal Component Analysis von fMRI-Daten" ( pdf ), in der sie die Varianz mithilfe von funktionalem PCA visualisieren:

... Wie bei anderen explorativen Techniken besteht das Ziel darin, eine erste Bewertung vorzunehmen, anhand derer die Daten „für sich selbst sprechen“ können, bevor ein geeignetes Modell ausgewählt wird. [...]

In dem Papier erklären sie, wie genau sie es getan haben, und liefern auch theoretische Argumente:

Der entscheidende Vorteil dieses Ansatzes besteht in der Möglichkeit, bei der Wahl des Basisfunktionssatzes eine Reihe von Annahmen zu spezifizieren und die Fehlerfunktion durch die Anpassung zu minimieren. Diese Annahmen sind schwächer als die Angabe einer vordefinierten hämodynamischen Funktion und einer Reihe von Ereignissen oder Bedingungen wie bei der F-Maskierung, wodurch der explorative Charakter des Verfahrens erhalten bleibt. Die Annahmen könnten jedoch streng genug bleiben, um die Schwierigkeiten einer normalen PCA zu überwinden.

andreister
quelle
Ich kämpfe darum, die Logik hinter der FPCA zu verstehen. Ich habe mir die von Ihnen zitierte Zeitung angesehen, aber ich bin immer noch verwirrt. Die Einstellung ist , dass die Datenmatrix von Größe mit n beobachteten Zeitreihe der Länge t » n . Mit PCA kann man den ersten t- langen Eigenvektor der Kovarianzmatrix finden; Die Behauptung ist, dass es sehr laut sein wird. Die FPCA-Lösung besteht darin, jede Zeitreihe mit k Basisfunktionen ( k t ) zu approximieren und anschließend eine PCA im Basisfunktionsraum durchzuführen. Richtig? Wenn ja, wie unterscheidet es sich von der Glättung der einzelnen Zeitreihen und der Ausführung von Standard-PCA? Warum ein besonderer Name? n×tntntkkt
Amöbe sagt Reinstate Monica
Nachdem ich ein bisschen mehr darüber gelesen hatte, beschloss ich, meine eigene Antwort zu posten. Vielleicht werden Sie interessiert sein. Ich freue mich auf jeden Fall über weitere Einblicke.
Amöbe sagt Reinstate Monica
24

Ich finde "funktionierende PCA" eine unnötig verwirrende Vorstellung. Es ist überhaupt keine separate Sache, es ist eine Standard-PCA, die auf Zeitreihen angewendet wird.

ntn×ttn201000t ) zu finden, dh Eigenvektoren der Kovarianzmatrix, die die "typische" Form der beobachteten Zeitreihen beschreiben.

Hier kann man definitiv die Standard-PCA anwenden. Offensichtlich ist der Autor in Ihrem Zitat besorgt, dass die resultierende Eigenzeitreihe zu verrauscht sein wird. Das kann tatsächlich passieren! Zwei offensichtliche Wege, um damit umzugehen, wären (a) die Glättung der resultierenden Eigenzeitreihe nach PCA oder (b) die Glättung der ursprünglichen Zeitreihe vor PCA.

ktk

Tutorials zu FPCA befassen sich in der Regel mit langwierigen Diskussionen darüber, wie PCA auf die Funktionsräume unendlicher Dimensionalität verallgemeinert werden kann, aber die praktische Relevanz davon ist mir völlig verborgen , da die Funktionsdaten in der Praxis immer zunächst diskretisiert werden.

Hier ist eine Illustration aus dem Lehrbuch "Functional Data Analysis" von Ramsay und Silverman, das die endgültige Monographie zur "Functional Data Analysis" einschließlich FPCA zu sein scheint:

Ramsay und Silverman, FPCA

Man kann sehen, dass PCA mit den "diskretisierten Daten" (Punkten) praktisch dasselbe ergibt wie FPCA mit entsprechenden Funktionen auf Fourier-Basis (Linien). Natürlich könnte man zuerst die diskrete PCA durchführen und dann eine Funktion auf derselben Fourier-Basis anpassen; es würde mehr oder weniger das gleiche Ergebnis liefern.

t=12n>t

Amöbe sagt Reinstate Monica
quelle
2
Bei spärlich unregelmäßig abgetasteten Trajektorien (z. B. Längsschnittdaten) ist die FPCA weitaus komplexer als das " Interpolieren und anschließende Glätten der resultierenden Eigenzeitreihen ". Selbst wenn man zum Beispiel auf irgendeine Weise einige Eigenkomponenten bekommt, ist die Berechnung der Projektionswerte von spärlichen Daten nicht genau definiert. siehe zum Beispiel: Yao et al. JASA 2005. Zugegeben für Prozesse mit dichter Probenahme. FPCA ist effektiv PCA mit einigen Nachteilen in Bezug auf die Glätte.
usεr11852 sagt Reinstate Monic
Danke, @ usεr11852 (+1). Ich muss Zeit finden, mich erneut damit zu beschäftigen. Ich werde versuchen, das von Ihnen angegebene Papier nachzuschlagen und auf diese Antwort zurückzukommen.
Amöbe sagt Reinstate Monica
@amoeba, das klingt alles fast nach einer diskreten Fouriertransformation, bei der Sie Komponentenwellen einer komplexen Welle / Zeitreihe wiederherstellen?
Russell Richie
9

Ich habe mehrere Jahre mit Jim Ramsay an der FDA gearbeitet, daher kann ich vielleicht ein paar Klarstellungen zu @ amoebas Antwort hinzufügen. Ich denke, auf praktischer Ebene ist @amoeba im Grunde richtig. Zumindest kam ich zu diesem Schluss, nachdem ich FDA studiert hatte. Das FDA-Framework gibt jedoch einen interessanten theoretischen Einblick, warum das Glätten der Eigenvektoren mehr als nur ein Trick ist. Es stellt sich heraus, dass die Optimierung im Funktionsraum unter der Bedingung eines inneren Produkts, das eine Glättungsstrafe enthält, eine endlich dimensionale Lösung von Basissplines ergibt. Die FDA verwendet den unendlich dimensionalen Funktionsraum, für die Analyse ist jedoch keine unbegrenzte Anzahl von Dimensionen erforderlich. Es ist wie der Kernel-Trick in Gaußschen Prozessen oder SVMs. Eigentlich ist es dem Kernel-Trick sehr ähnlich.

Ramsays ursprüngliche Arbeit befasste sich mit Situationen, in denen die Hauptgeschichte in den Daten offensichtlich ist: Die Funktionen sind mehr oder weniger linear oder mehr oder weniger periodisch. Die dominanten Eigenvektoren der Standard-PCA spiegeln lediglich das Gesamtniveau der Funktionen und den linearen Trend (oder die Sinusfunktionen) wider und sagen uns im Grunde, was wir bereits wissen. Die interessanten Merkmale liegen in den Residuen, die jetzt mehrere Eigenvektoren vom oberen Ende der Liste sind. Und da jeder nachfolgende Eigenvektor zu den vorhergehenden orthogonal sein muss, hängen diese Konstrukte mehr und mehr von Artefakten der Analyse und weniger von relevanten Merkmalen der Daten ab. In der Faktoranalyse zielt die schräge Faktorrotation darauf ab, dieses Problem zu lösen. Ramsays Idee war es nicht, die Komponenten zu drehen, sondern die Definition der Orthogonalität so zu ändern, dass sie den Erfordernissen der Analyse besser entspricht. Dies bedeutete, dass Sie, wenn Sie sich mit periodischen Komponenten befassten, auf der Grundlage von glätten würdenD3-D, wodurch Sinus und Konsinus beseitigt werden. Wenn Sie einen linearen Trend entfernen wollten, würden Sie auf der Basis von glättenD2 Dies ergibt standardmäßige kubische Splines.

Man könnte einwenden, dass es einfacher wäre, den Trend mit OLS zu entfernen und die Reste dieser Operation zu untersuchen. Ich war nie davon überzeugt, dass der Mehrwert der FDA die enorme Komplexität der Methode wert ist. Aus theoretischer Sicht lohnt es sich jedoch, die damit verbundenen Fragen zu berücksichtigen. Alles, was wir mit den Daten machen, bringt die Dinge durcheinander. Die Residuen von OLS sind korreliert, auch wenn die ursprünglichen Daten unabhängig waren. Durch das Glätten einer Zeitreihe werden Autokorrelationen eingeführt, die nicht in der Rohserie enthalten waren. Die Idee der FDA war es, sicherzustellen, dass die Rückstände, die wir aus dem anfänglichen Detrending erhalten haben, für die Analyse des Interesses geeignet sind.

Sie müssen bedenken, dass die FDA in den frühen 80er Jahren gegründet wurde, als Spline-Funktionen aktiv untersucht wurden - denken Sie an Grace Wahba und ihr Team. Seitdem sind viele Ansätze für multivariate Daten aufgetaucht - wie SEM, Wachstumskurvenanalyse, Gaußsche Prozesse, Weiterentwicklungen in der stochastischen Prozesstheorie und viele mehr. Ich bin nicht sicher, ob die FDA der beste Ansatz für die darin behandelten Fragen bleibt. Auf der anderen Seite frage ich mich oft, ob die Autoren wirklich verstehen, was die FDA versucht hat, zu tun, wenn ich Anwendungen sehe, von denen behauptet wird, FDA zu sein.

Placidia
quelle
+1. Hoppla, ich habe Ihre Antwort erst jetzt und nur durch Zufall bemerkt (jemand anderes hat unter meiner Antwort einen Kommentar hinterlassen und ich bin nach unten gescrollt). Vielen Dank für Ihren Beitrag! Ich denke, ich muss Zeit finden, etwas mehr darüber zu lesen und darüber nachzudenken, was Sie über die Ähnlichkeit mit dem Kerneltrick gesagt haben. Es klingt vernünftig.
Amöbe sagt Reinstate Monica
5

Bei FPCA bin ich mir nicht sicher, aber eines muss ich bedenken: In extrem hohen Dimensionen gibt es viel mehr "Raum" und Punkte im Raum erscheinen gleichmäßig verteilt (dh alles ist weit von allem anderen entfernt). An diesem Punkt sieht die Kovarianzmatrix im wesentlichen gleichmäßig aus und ist sehr empfindlich gegenüber Rauschen. Es wird daher eine schlechte Schätzung der "wahren" Kovarianz. Vielleicht schafft es die FPCA irgendwie, aber ich bin mir nicht sicher.

tdc
quelle