Ich habe diesen Artikel im Economist über ein anscheinend verheerendes Papier [1] gesehen, das Zweifel an "etwa 40.000 veröffentlichten [fMRI] -Studien" aufwirft. Der Fehler liege an "falschen statistischen Annahmen". Ich habe das Papier gelesen und sehe, dass es teilweise ein Problem mit mehreren Vergleichskorrekturen ist, aber ich bin kein fMRI-Experte und finde es schwierig, dem zu folgen.
Was sind die falschen Annahmen, von denen die Autoren sprechen ? Warum werden diese Annahmen getroffen? Wie können diese Annahmen getroffen werden?
Nach der Berechnung des Umschlags belaufen sich die Fördermittel für 40.000 fMRI-Papiere auf über eine Milliarde US-Dollar (Gehalt für Hochschulabsolventen, Betriebskosten usw.).
[1] Eklund et al., Cluster Failure: Warum fMRI-Schlussfolgerungen für die räumliche Ausdehnung falsch positive Raten ausgelöst haben, PNAS 2016
quelle
Antworten:
Auf der 40000 Figur
Die Nachrichten sind wirklich sensationell, aber die Zeitung ist wirklich gut fundiert. In meinem Labor tobten tagelange Diskussionen, alles in allem eine wirklich notwendige Kritik, die Forscher dazu bringt, ihre Arbeit in sich selbst zu betrachten. Ich empfehle die Lektüre des folgenden Kommentars von Thomas Nichols , einem der Autoren des Papiers "Cluster Failure: Warum fMRI-Schlussfolgerungen für räumliche Ausdehnung falsch positive Raten aufgeblasen haben" (entschuldigen Sie das lange Zitat).
Er schließt auch diese Tabelle am Ende ein:
Grundsätzlich ist SPM (Statistical Parametric Mapping, eine Toolbox für Matlab) das am häufigsten verwendete Tool für neurowissenschaftliche fMRI-Studien. Wenn Sie das Papier überprüfen, sehen Sie, dass eine CDT von P = 0,001 (der Standard) für Cluster in SPM fast die erwartete familienbezogene Fehlerrate ergibt.
Die Autoren füllten sogar eine Errata aufgrund des Wortlauts des Papiers:
Auf den sogenannten Bug
Einige Nachrichten erwähnten auch einen Fehler als Ursache für die Ungültigkeit der Studien. In der Tat hat eines der AFNI-Tools die Schlussfolgerungen unterkorrigiert , und dies wurde behoben, nachdem der Vordruck in arXiv veröffentlicht wurde .
Statistische Inferenz bei der funktionellen Bildgebung
Functional Neuroimaging umfasst viele Techniken zur Messung der neuronalen Aktivität im Gehirn (z. B. fMRI, EEG, MEG, NIRS, PET und SPECT). Diese basieren auf unterschiedlichen Kontrastmechanismen. Die fMRT basiert auf dem blutsauerstoffspiegelabhängigen Kontrast (BOLD). Bei der aufgabenbasierten fMRT verbrauchen die Neuronen im Gehirn, die für den Empfang dieser Stimulation verantwortlich sind, Energie, wodurch die hämodynamische Reaktion ausgelöst wird, die das Magnetresonanzsignal ( ) in der Nähe des rekrutierten Mikros ändert -Vaskularisation.≈5%
Mithilfe eines verallgemeinerten linearen Modells (GLM) identifizieren Sie, welche Voxelsignal-Zeitreihen mit dem Design des Paradigmas Ihres Experiments korreliert sind (normalerweise eine boolesche Zeitreihe, die mit einer kanonischen hämodynamischen Antwortfunktion verknüpft ist, es gibt jedoch Variationen).
In diesem GLM sehen Sie also, wie sehr jede Voxel-Zeitreihe der Aufgabe ähnelt. Angenommen, Sie haben zwei Gruppen von Personen: Patienten und Kontrollen in der Regel. Der Vergleich der GLM-Werte zwischen den Gruppen könnte verwendet werden, um zu zeigen, wie der Zustand der Gruppen das "Aktivierungs" -Muster ihres Gehirns moduliert.
Ein voxelweiser Vergleich zwischen den Gruppen ist möglich, aber aufgrund der dem Gerät eigenen Punktverteilungsfunktion und eines glättenden Vorverarbeitungsschritts ist es nicht sinnvoll zu erwarten, dass Voxel alle Informationen einzeln übertragen. Der Unterschied in den Voxeln zwischen den Gruppen sollte in der Tat über benachbarte Voxel verteilt sein.
Es wird also ein clusterweiser Vergleich durchgeführt, dh nur Unterschiede zwischen Gruppen, die sich zu Clustern zusammenschließen, werden berücksichtigt. Diese Cluster-Extent-Schwelle ist die beliebteste Methode zur Korrektur multipler Vergleiche in fMRI-Studien. Das Problem liegt hier.
In SPM müssen Sie mindestens eine nominelle FWE-Rate sowie einen clusterdefinierenden Schwellenwert (CDT) festlegen. Grundsätzlich findet SPM Voxel, die in hohem Maße mit der Aufgabe korrelieren, und nach der Schwellwertbildung mit dem CDT werden benachbarte Voxel zu Clustern aggregiert. Diese Clustergrößen werden mit der erwarteten Clustergröße aus der Random Field Theory (RFT) verglichen, wenn die FWER-Menge [ 1 ] gegeben ist.
Die Autoren haben in [ 1 ] gezeigt, dass die erwarteten Clustergrößen von RFT im Vergleich zu den Schwellenwerten für die Clusterausdehnung, die beim Random Permutation Testing (RPT) ermittelt wurden, sehr gering sind.
In ihrer jüngsten Veröffentlichung wurden Daten zum Ruhezustand (eine weitere Modalität von fMRI, bei der die Teilnehmer angewiesen werden, an nichts Bestimmtes zu denken) verwendet, als ob Personen während der Bilderfassung eine Aufgabe ausführten, und der Gruppenvergleich wurde mit Voxel- und Cluster durchgeführt -weise. Die beobachtete Rate falsch positiver Fehler (dh wenn Sie Unterschiede in der Signalantwort auf eine virtuelle Aufgabe zwischen Gruppen beobachten) sollte einigermaßen niedriger sein als die erwartete FWE-Rate, die auf . Eine millionenfache Wiederholung dieser Analyse an zufällig ausgewählten Gruppen mit unterschiedlichen Paradigmen ergab, dass die meisten beobachteten FWE-Raten jedoch höher als akzeptabel waren.α=0.05
@amoeba hat in den Kommentaren diese beiden sehr relevanten Fragen aufgeworfen:
(1) Gute Frage. Ich habe tatsächlich meine Referenzen überprüft. Mal sehen, ob ich es jetzt klarer machen kann. Die clusterweise Inferenz basiert auf dem Ausmaß der Cluster, die sich bilden, nachdem ein primärer Schwellenwert (der CDT, der willkürlich ist ) angewendet wurde. In der Sekundäranalyse wird ein Schwellenwert für die Anzahl der Voxel pro Cluster angewendet. Diese Schwelle basiert auf der erwarteten Verteilung von Null-Cluster-Ausmaßen, die aus der Theorie (z. B. RFT) geschätzt werden kann, und legt eine nominelle FWER fest. Eine gute Referenz ist [ 2 ].
(2) Vielen Dank für diesen Hinweis, habe ihn vorher nicht gesehen. Flandin & Friston argumentieren, Eklund et al. bestätigte RFT-Folgerungen, weil sie im Wesentlichen zeigten, dass die Ergebnisse bei Einhaltung ihrer Annahmen (in Bezug auf CDT und Glättung) unvoreingenommen sind. Vor diesem Hintergrund zeigen die neuen Ergebnisse, dass unterschiedliche Praktiken in der Literatur die Inferenz tendenziell verzerren, da sie die Annahmen von RFT auflöst.
Auf den mehrfachen Vergleichen
Es ist auch bekannt, dass viele neurowissenschaftliche Studien mehrfache Vergleiche nicht korrigieren. Schätzungen gehen von 10% bis 40% der Literatur aus. Diese Behauptung lässt sich jedoch nicht erklären. Jeder weiß, dass diese Papiere eine fragile Gültigkeit haben und möglicherweise sehr hohe Falsch-Positiv-Quoten aufweisen.
Auf der FWER mehr als 70%
Die Autoren berichteten auch über ein Verfahren, bei dem FWER über 70% erzeugt wird. Dieses "Volks" -Verfahren besteht darin, das CDT anzuwenden, um nur hoch signifikante Cluster beizubehalten, und dann einen anderen willkürlich gewählten Schwellenwert für die Clustergröße (in Anzahl der Voxel) anzuwenden. Dies wird manchmal als "Set-Inferenz" bezeichnet, hat schwache statistische Grundlagen und führt möglicherweise zu den am wenigsten zuverlässigen Ergebnissen.
Frühere Berichte
Dieselben Autoren hatten bereits in Einzelanalysen über Probleme mit der Validität von SPM [ 1 ] berichtet. Es gibt auch andere zitierte Werke in diesem Bereich.
Interessanterweise waren mehrere Berichte über Analysen auf Gruppen- und Einzelebene auf der Grundlage simulierter Daten konservativ, die auf die RFT-Schwelle schließen ließen. Mit den jüngsten Fortschritten bei der Verarbeitungsleistung kann RPT für reale Daten viel einfacher durchgeführt werden und weist große Unterschiede zu RFT auf.
UPDATE: 18. Oktober 2017
Ein Kommentar zu "Cluster Failure" ist letzten Juni aufgetaucht [ 3 ]. Dort haben Müller et al. argumentieren, dass die in Eklund et al. präsentierten Ergebnisse möglicherweise auf eine bestimmte Bildverarbeitungstechnik zurückzuführen sind, die in ihrer Studie verwendet wurde. Grundsätzlich haben sie die funktionalen Bilder vor dem Glätten auf eine höhere Auflösung gebracht (obwohl dies wahrscheinlich nicht von jedem Forscher durchgeführt wird, ist dies in den meisten fMRI-Analyseprogrammen ein Routineverfahren). Sie stellen auch fest, dass Flandin & Friston nicht. Ich habe Eklund tatsächlich im selben Monat auf dem Jahrestreffen der Organisation für Human Brain Mapping (OHBM) in Vancouver gesehen, aber ich kann mich an keine Kommentare zu diesem Thema erinnern, aber es scheint für die Frage von entscheidender Bedeutung zu sein.
[1] A. Eklund, M. Andersson, C. Josephson, M. Johannesson & H. Knutsson (2012). Ergibt eine parametrische fMRI-Analyse mit SPM gültige Ergebnisse? - Eine empirische Studie mit 1484 Restdatensätzen. NeuroImage, 61 (3), 565 & ndash; 578.
[2] Woo, CW, Krishnan, A. & Wager, TD (2014). Cluster-Extent-based Thresholding in fMRI-Analysen: Fallstricke und Empfehlungen. Neuroimage, 91, 412 & ndash; 419.
[3] Müller, K., Lepsien, J., Möller, HE, & Lohmann, G. (2017). Kommentar: Cluster-Ausfall: Warum fMRI-Schlussfolgerungen für räumliche Ausdehnung falsch-positive Raten erhöht haben. Frontiers in Human Neuroscience, 11.
quelle