Ich versuche, die Verwendung von PCA in einem kürzlich erschienenen Zeitschriftenartikel mit dem Titel "Mapping brain activity at scale with cluster computing" von Freeman et al., 2014 (kostenloses PDF auf der Laborwebsite verfügbar ) zu verstehen . Sie verwenden PCA für Zeitreihendaten und verwenden die PCA-Gewichte, um eine Karte des Gehirns zu erstellen.
Die Daten sind mittlere trial-Bilddaten, als eine Matrix gespeichert (bezeichnet als Y in dem Papier) mit n Voxeln (oder Abbildungsstellen im Gehirn) × t Zeitpunkt (die Länge einer einzigen Stimulation an das Gehirn).
Sie nutzen den SVD was zu Y = U S V ⊤ ( V ⊤ anzeigt transponierte Matrix V ).
Die Autoren geben das an
Die Hauptkomponenten (die Spalten von ) sind Vektoren der Länge t , und die Scores (die Spalten von U ) sind Vektoren der Länge n (Anzahl der Voxel), wobei der Vorsprung jedes Voxels auf der durch die entsprechende Komponente gegebenen Richtung beschreibt Bilden von Projektionen auf dem Volumen, dh Ganzhirnkarten.
So sind die PCs sind Vektoren der Länge t . Wie kann ich interpretieren, dass die "erste Hauptkomponente die größte Varianz erklärt", wie es in PCA-Tutorials üblich ist? Wir haben mit einer Matrix aus vielen stark korrelierten Zeitreihen begonnen. Wie erklärt eine einzelne PC-Zeitreihe die Varianz in der ursprünglichen Matrix? Ich verstehe die ganze Sache "Rotation einer Gaußschen Punktewolke auf der verschiedensten Achse", bin mir aber nicht sicher, wie dies mit Zeitreihen zusammenhängt. Was meinen die Autoren mit Richtung, wenn sie sagen : "Die Punkte (die Spalten von U ) sind Vektoren der Länge n (Anzahl der Voxel), die die Projektion jedes Voxels auf die von der entsprechenden Komponente vorgegebene Richtung beschreiben "? Wie kann ein Hauptkomponenten-Zeitverlauf eine Richtung haben?
Um ein Beispiel für die resultierenden Zeitreihen aus den linearen Kombinationen der Hauptkomponenten 1 und 2 und der zugehörigen Gehirnkarte anzuzeigen, gehen Sie zum folgenden Link und bewegen Sie die Maus über die Punkte im XY-Diagramm.
Meine zweite Frage bezieht sich auf die (Zustandsraum-) Trajektorien, die sie unter Verwendung der Hauptkomponentenbewertungen erstellen.
Diese werden erstellt, indem die ersten 2 Punkte (im Fall des oben beschriebenen "optomotorischen" Beispiels) herangezogen werden und die einzelnen Versuche (die zum Erstellen der oben beschriebenen versuchsgemittelten Matrix verwendet werden) in den Hauptunterraum mit der Gleichung: J = projiziert werden U ⊤ Y .
Wie Sie an den verknüpften Filmen sehen können, repräsentiert jede Spur im Zustandsraum die Aktivität des Gehirns als Ganzes.
Kann jemand die Intuition dafür liefern, was jedes "Einzelbild" des Zustandsraumfilms im Vergleich zu der Figur bedeutet, die die XY-Darstellung der Punktzahlen der ersten 2 PCs assoziiert. Was bedeutet es in einem gegebenen "Rahmen", dass 1 Versuch des Experiments auf einer Position im XY-Zustandsraum und ein anderer Versuch auf einer anderen Position ist? In welcher Beziehung stehen die XY-Plotpositionen in den Filmen zu den Hauptkomponentenspuren in der verknüpften Abbildung, die im ersten Teil meiner Frage erwähnt wurde?
quelle
Antworten:
F1: Wie hängen PC-Zeitreihen und "maximale Varianz" zusammen?
Ich stimme der obigen Interpretation von @ Nestor zu: Jedes ursprüngliche Merkmal kann dann als eine lineare Kombination von PCs angesehen werden, und da PCs nicht miteinander korreliert sind, kann man sich diese als Basisfunktionen vorstellen, in die die ursprünglichen Merkmale zerlegt werden. Es ist ein bisschen wie die Fourier-Analyse, aber anstatt feste Sinus- und Cosinus-Basis zu verwenden, finden wir die "am besten geeignete" Basis für diesen bestimmten Datensatz, in dem Sinne, dass der erste PC die größte Varianz ausmacht usw.
"Accounting for most varianz" bedeutet hier, dass der erste PC die beste Arbeit leistet, wenn Sie nur eine Basisfunktion (Zeitreihe) verwenden und versuchen, alle Funktionen damit zu approximieren. Die grundlegende Intuition hier ist also, dass der erste PC eine Basisfunktionszeitreihe ist, die zu allen verfügbaren Zeitreihen am besten passt, usw.
Warum ist diese Passage in Freeman et al. so verwirrend?
Der Satz, den Sie aus Freeman et al. ist in der Tat ziemlich verwirrend:
Ich finde das sehr verwirrend und schlage daher vor, die Wortwahl zu ignorieren, aber nur die Formeln zu betrachten. Von diesem Punkt an werde ich die Begriffe weiterhin so verwenden, wie ich sie mag, nicht wie Freeman et al. benutze sie.
F2: Was sind die Zustandsraumbahnen?
quelle
In Bezug auf die zweite Frage. Die angegebene Gleichung lautet
Ich habe mich vorher nicht mit der Färbemethode befasst, und es würde eine Weile dauern, bis ich zuversichtlich war, diesen Aspekt zu kommentieren. Ich fand den Kommentar zur Ähnlichkeit mit Fig. 4c verwirrend, da die Färbung dort durch Per-Voxel-Regression erhalten wird. Während in 6 jede Spur ein Ganzbild-Artefakt ist. Wenn ich nicht klargestellt werde, ist es meiner Meinung nach die Richtung des Stimulus während dieses Zeitabschnitts, wie aus dem Kommentar in der Abbildung hervorgeht.
quelle