Modellierung von Längsschnittdaten, bei denen der Einfluss der Zeit zwischen Individuen in funktionaler Form variiert

32

Kontext :

Stellen Sie sich vor, Sie hätten eine Längsschnittstudie durchgeführt, in der einmal wöchentlich über 20 Wochen eine abhängige Variable (DV) bei 200 Teilnehmern gemessen wurde. Obwohl ich an allgemeinen DVs interessiert bin, umfassen typische DVs, an die ich denke, die Arbeitsleistung nach der Einstellung oder verschiedene Wohlfühlmaßnahmen nach einer klinisch-psychologischen Intervention.

Ich weiß, dass Mehrebenenmodellierung verwendet werden kann, um die Beziehung zwischen Zeit und DV zu modellieren. Sie können auch zulassen, dass Koeffizienten (z. B. Abschnitte, Steigungen usw.) zwischen Personen variieren, und die bestimmten Werte für die Teilnehmer schätzen. Was aber, wenn Sie bei der visuellen Prüfung der Daten feststellen, dass die Beziehung zwischen Zeit und DV eine der folgenden ist:

  • in funktionaler Form unterschiedlich (einige sind möglicherweise linear und andere exponentiell oder haben eine Diskontinuität)
  • Unterschiedliche Fehlervarianz (einige Personen sind von einem Zeitpunkt zum nächsten volatiler)

Fragen :

  • Was wäre ein guter Ansatz, um solche Daten zu modellieren?
  • Welche Ansätze eignen sich insbesondere, um verschiedene Arten von Beziehungen zu identifizieren und Personen nach ihrem Typ zu kategorisieren?
  • Welche Implementierungen gibt es in R für solche Analysen?
  • Gibt es Hinweise dazu: Lehrbuch oder aktuelle Bewerbung?
Jeromy Anglim
quelle

Antworten:

20

Ich würde vorschlagen, die folgenden drei Richtungen zu betrachten:

  • longitudinales Clustering : Dies ist nicht überwacht, aber Sie verwenden einen k-means-Ansatz, der sich auf das Calinsky-Kriterium stützt, um die Qualität der Partitionierung zu bewerten (Paket kml und Referenzen in der Online-Hilfe). Im Grunde genommen hilft es nicht, eine bestimmte Form für den individuellen Zeitverlauf zu identifizieren, sondern nur ein homogenes Evolutionsprofil zu trennen
  • Eine Art latente Wachstumskurve, die für Heteroskedastizität verantwortlich ist: Ich würde am besten die umfangreichen Referenzen rund um MPlus- Software betrachten, insbesondere die FAQ und das Mailing. Ich habe auch von multiplikativen heteroskedastischen Zufallseffektmodellen gehört (versuchen Sie, diese Keywords zu googeln). Ich finde diese Papiere ( 1 , 2 ) interessant, habe sie mir aber nicht näher angesehen. Ich werde mit Hinweisen zur neuropsychologischen Beurteilung aktualisieren, sobald ich wieder in meinem Büro bin.
  • Funktions-PCA ( FPCA- Paket), aber es kann sich lohnen, die Funktionsdatenanalyse zu betrachten

Andere Referenzen (nur im Handumdrehen durchsucht):

chl
quelle
1
Vielen Dank. Die Idee, ein Clustering-Verfahren zu verwenden, war mir gekommen. Ich stelle mir die Herausforderung vor, die möglichen Kurvenmerkmale auf individueller Ebene auf theoretisch sinnvolle Weise angemessen zu erfassen und zu gewichten. Ich werde sehen, wie es in kml funktioniert.
Jeromy Anglim
1
Nun, es funktioniert ziemlich gut, obwohl das Interface schrecklich ist (und ich kenne den Typ, der es erstellt hat :) - Ich habe es vor zwei Monaten verwendet, um klinische Gruppen basierend auf individuellen Profilen bei Entwicklungsmessungen zu trennen (Brunet-Lézine).
Chl
1
Hier ist eine weitere Referenz für die FDA: psych.mcgill.ca/misc/fda
Mike Lawrence
1
Ich fand diese Einführung in den FDA-Link von Ramsay (2008), besonders zugänglich unter gbi.agrsci.dk/~shd/public/FDA2008/FDA_Sage.pdf
Jeromy Anglim,
8

Ich würde empfehlen, sich ein paar Artikel von Heping Zhang anzusehen, in denen adaptive Splines zur Modellierung von Längsschnittdaten verwendet werden:

Auf der MASAL- Seite finden Sie außerdem Informationen zu Software, die ein R-Paket enthält.

ars
quelle
6

Mir scheint, dass Wachstumsmischungsmodelle möglicherweise die Möglichkeit bieten, Ihre Fehlervarianz zu untersuchen. ( PDF hier). (Ich bin nicht sicher, was multiplikative heteroskedastische Modelle sind, aber ich muss sie auf jeden Fall überprüfen).

Latente gruppenbasierte Trajektorienmodelle sind in letzter Zeit in der Kriminologie sehr populär geworden. Viele Menschen gehen jedoch davon aus, dass es tatsächlich Gruppen gibt, und einige kluge Nachforschungen haben ergeben, dass Sie Gruppen auch in zufälligen Daten finden. Auch zu beachten, dass Nagins gruppenbasierter Modellierungsansatz es Ihnen nicht ermöglicht, Ihren Fehler zu bewerten (und ehrlich gesagt habe ich noch nie ein Modell gesehen, das so etwas wie eine Diskontinuität aussehen würde).

Obwohl es mit 20 Zeitpunkten schwierig wäre, könnte es für Erkundungszwecke hilfreich sein, einfache Heuristiken zur Identifizierung von Mustern zu erstellen (z. B. immer niedrig oder immer hoch, Variationskoeffizient). Ich stelle mir Sparklines in einem Arbeitsblatt oder in Parallelkoordinatendiagrammen vor, aber ich bezweifle, dass sie hilfreich sind (ich habe ehrlich gesagt noch nie ein Parallelkoordinatendiagramm gesehen, das sehr aufschlussreich ist).

Viel Glück

Andy W
quelle
@chl, Kein Problem, vielen Dank für alle Ressourcen, die Sie hier aufgelistet haben.
Andy W
Guter Punkt über latente Gruppen. Ich habe verschiedene Anwendungen der latenten Klassenanalyse und Clusteranalyse gesehen, bei denen es nur darum zu gehen scheint, eine kontinuierliche Variable in Kategorien wie niedrig und hoch zu zerlegen ( jeromyanglim.blogspot.com/2009/09/… ). Ich habe jedoch einige Längsschnittdaten auf Einzelebene, die visuell so aussehen, als stammten sie aus kategorisch unterschiedlichen Datenerzeugungsprozessen (z. B. immer hoch, immer niedrig, allmählich ansteigend, abrupt ansteigend usw.) und innerhalb von Kategorien Es gibt eine stetigere Variation der Parameter.
Jeromy Anglim
@ Jeromy, ich glaube nicht, dass die Arbeit, die ich zitierte, die Leute davon abhalten würde, solche Methoden zur Identifizierung latenter Gruppen zu verwenden. Ich würde sagen, der Punkt der Arbeit ist, dass Sie solche Methoden nicht verwenden können, um nur auf die Existenz von Gruppen zu schließen, da Sie immer Gruppen finden, auch in zufälligen Daten. Es liegt an einer subjektiveren Interpretation, ob diese Gruppen, die Sie finden, real sind oder einfach Artefakte der Methode. Sie könnten einige logische Theorien identifizieren, die solche Prozesse erzeugen, und dann prüfen, ob die identifizierten Gruppen zu diesen Theorien passen.
Andy W
5

Vier Jahre nachdem ich diese Frage gestellt habe, habe ich ein paar Dinge gelernt, also sollte ich vielleicht ein paar Ideen hinzufügen.

Ich denke, die Bayes'sche hierarchische Modellierung bietet einen flexiblen Ansatz für dieses Problem.

Software : Tools wie Jags, Stan, WinBugs usw., die möglicherweise mit ihren jeweiligen R-Schnittstellenpaketen (z. B. rjags, rstan) kombiniert sind, erleichtern die Angabe solcher Modelle.

Variieren innerhalb von Personenfehlern: Mithilfe von Bayes-Modellen kann die Abweichung innerhalb von Personenfehlern auf einfache Weise als zufälliger Faktor angegeben werden, der zwischen den Personen variiert.

yi=1,...,nj=1,...J

yijN(μi,σi2)
μi=γ
γN(μγ,σγ2)
σiGamma(α,β)

Somit könnte die Standardabweichung jeder Person als Gammaverteilung modelliert werden. Ich habe festgestellt, dass dies ein wichtiger Parameter in vielen psychologischen Bereichen ist, in denen sich die Menschen im Laufe der Zeit stark unterscheiden.

Latente Kurvenklassen: Ich habe diese Idee noch nicht genau untersucht, aber es ist relativ einfach, zwei oder mehr mögliche Datenerzeugungsfunktionen für jede Person anzugeben und dann das Bayes'sche Modell das wahrscheinlichste Modell für eine bestimmte Person auswählen zu lassen. Auf diese Weise erhalten Sie in der Regel für jede Person hintere Wahrscheinlichkeiten, in welcher funktionalen Form die Personendaten beschrieben werden.

Als Skizze einer Idee für ein Modell könnten Sie Folgendes haben:

yijN(μij,σ2)
μij=γiλij(1)+(1γi)λij(2)
λij(1)=θ1i(1)+θ2i(1)exp(θ3i(1))
λij(2)=θ1i(2)+θ2i(2)xij+θ3i(2)xij2
γi=Bernoulli(πi)

Where xij is time and λij(1) represents expected values for a three parameter exponential model and λij(2) represents expected values for a quadratic model. πi represents the probability that model will choose λij(1).

Jeromy Anglim
quelle
I've also been moving to the Bayesian framework, and have been reading on using Gaussian Processes for time series analysis of uncertain function forms. Still unclear how it can be applied to the case of hierarchical data (see my unanswered query here: groups.google.com/d/msg/stan-users/yjDWtMhxQQE/2TiYevy0ZwUJ)
Mike Lawrence