Lineare Mixed-Effects-Modellierung mit Zwillingsstudiendaten

14

Angenommen, ich habe eine Antwortvariable yij , die vom j ten Geschwister in der i ten Familie gemessen wurde . Darüber hinaus sind einige Verhaltensdaten xij in der gleichen Zeit von jedem Probanden erhoben wurden. Ich versuche die Situation mit dem folgenden linearen Mixed-Effects-Modell zu analysieren:

yij=α0+α1xij+δ1ixij+εij

wobei und α 1 der feste Schnittpunkt bzw. die Steigung sind, δ 1 i die zufällige Steigung ist und ε i j der Rest ist.α0α1δ1iεij

Die Annahmen für die Zufallseffekte und Residuum ε i j sind (vorausgesetzt, es gibt nur zwei Geschwister in jeder Familie).δ1iεij

δ1idN(0,τ2)(εi1,εi2)TdN((0,0)T,R)

wobei ein unbekannter Varianzparameter ist und die Varianz-Kovarianz-Struktur R eine 2 × 2 symmetrische Formmatrix istτ2R

(r12r122r122r22)

das modelliert die Korrelation zwischen den beiden Geschwistern.

  1. Ist dies ein geeignetes Modell für eine solche Geschwisterstudie?

  2. Die Daten sind etwas kompliziert. Unter den 50 Familien sind fast 90% zweieiige Zwillinge. Für die übrigen Familien

    1. zwei haben nur ein geschwister;
    2. zwei haben ein DZ-Paar plus ein Geschwister; und
    3. zwei haben ein DZ-Paar plus zwei zusätzliche Geschwister.


    Ich glaube, dass lmedas R-Paket nlmeproblemlos mit (1) fehlenden oder unausgeglichenen Situationen umgehen kann. Mein Problem ist, wie ich mit (2) und (3) umgehen soll. Eine Möglichkeit, die ich mir vorstellen kann, besteht darin, jede dieser vier Familien in (2) und (3) in zwei zu unterteilen, sodass jede Unterfamilie ein oder zwei Geschwister haben würde, sodass das obige Modell weiterhin angewendet werden könnte. Ist das in Ordnung? Eine andere Möglichkeit wäre, die Daten von den zusätzlichen ein oder zwei Geschwistern in (2) und (3) einfach wegzuwerfen, was eine Verschwendung zu sein scheint. Irgendwelche besseren Ansätze?

  3. Es scheint, lmedass man die Werte in der Restvarianz-Kovarianz-Matrix R festlegen kann , zum Beispiel r 2 12 = 0,5. Ist es sinnvoll, die Korrelationsstruktur festzulegen, oder sollte ich sie einfach anhand der Daten schätzen?rRr122

Bluepole
quelle
1
Was bedeutet ? xj
Makro
@Macro: Danke, dass du das gesehen hast. Nur das OP geändert, um anzuzeigen, dass eine erklärende Variable ist, ein Verhaltensmaß für jedes Geschwister. xij
Bluepole
1
Sehr interessante Frage und Anwendung. Ich könnte etwas vermissen, aber es scheint mir, dass dieses Modell überparametrisiert ist. Die korrelierten Fehler können effektiv in eine "nicht gemeinsam genutzte" Komponente und eine "gemeinsam genutzte" Komponente zerlegt werden, wobei letztere die gleiche Funktion wie δ 0 i hat . Sie müssen entweder δ 0 i löschen , die iid-Fehler des ϵ angeben oder Einschränkungen wie r 2 12 =ϵi1,ϵi2δ0iδ0iϵ für die Identifizierbarkeit- tun Sie dies absichtlich, um Umwelt- / genetische Komponenten von der Geschwisterkorrelation zu entkoppeln?r122=.5
Macro
@Macro: Sie haben recht: ist im Modell nicht erforderlich. Vielen Dank für den Hinweis! Seltsamerweise beschwert sich nicht über eine solche Redundanz. δ0ilme
Bluepole
Arbeiten Sie immer noch mit diesem überparametrisierten Modell (dieser Teil Ihrer Frage wurde nicht bearbeitet)?
Makro

Antworten:

10

Sie können Zwillinge und Nicht-Zwillinge in ein einheitliches Modell einbeziehen, indem Sie eine Dummy-Variable verwenden und zufällige Steigungen in diese Dummy-Variable einbeziehen. Da alle Familien höchstens eine Zwillingsfamilie haben, ist dies relativ einfach:

Sei wenn das Geschwister j in der Familie i ein Zwilling ist, andernfalls 0. Ich gehe davon aus, dass Sie auch möchten, dass sich die zufällige Steigung für Zwillinge und normale Geschwister unterscheidet. Wenn nicht, schließen Sie η i 3 nicht einAij=1jiηi3 Term in das nachstehende Modell ein.

Dann passen Sie das Modell an:

yij=α0+α1xij+ηi0+ηi1Aij+ηi2xij+ηi3xijAij+εij
  • sind feste Effekte, wie in Ihrer Spezifikationα0,α1

  • ist der zufällige Geschwister-Grundeffekt und η i 1 ist der zusätzliche zufällige Effekt, mit dem Zwillinge ähnlicher sind als normale Geschwister. Die Größen der entsprechenden zufälligen Effektvarianzen quantifizieren, wie ähnlich die Geschwister sind und wie viel ähnlicher die Zwillinge als normale Geschwister sind. Beachten Sie, dass sowohl Zwillings- als auch Nicht-Zwillingskorrelationen durch dieses Modell charakterisiert werden - Zwillingskorrelationen werden berechnet, indem Zufallseffekte entsprechend summiert werden (Einstecken von A i j = 1 ).ηi0ηi1Aij=1

  • und η i 3 haben analoge Rollen, nur wirken sie als zufällige Steigungen von x i jηi2ηi3xij

  • εij

Sie können das Modell unter Verwendung des RPakets anpassen lme4. Im folgenden Code ist die abhängige Variable y, die Dummy-Variable ist A, der Prädiktor ist x, das Produkt der Dummy-Variable und der Prädiktor ist Axund famIDist die Identifikationsnummer für die Familie. Es wird davon ausgegangen, dass Ihre Daten in einem Datenrahmen Dmit diesen Variablen als Spalten gespeichert sind.

library(lme4) 
g <- lmer(y ~ x + (1+A+x+Ax|famID), data=D) 

Die Zufallseffektvariablen und die Schätzungen der festen Effekte können durch Eingabe angezeigt werden summary(g). Beachten Sie, dass mit diesem Modell die zufälligen Effekte frei miteinander korreliert werden können.

In vielen Fällen kann es sinnvoller (oder leichter zu interpretieren) sein, eine Unabhängigkeit zwischen den zufälligen Effekten anzunehmen (z. B. wird diese Annahme häufig getroffen, um die Korrelation zwischen genetischer und familiärer Umwelt zu zerlegen). In diesem Fall würden Sie stattdessen tippen

g <- lmer(y ~ x + (1|famID) + (A-1|famID) + (x-1|famID) +(Ax-1|famID), data=D) 
Makro
quelle
Das ist wirklich eine schöne Lösung, und ich mag es! Werde es bald ausprobieren und sehen, es geht ... Vielen Dank!
Bluepole
You're welcome. If you've found this solution helpful please consider accepting the answer :)
Macro
Two issues: 1) Since most subjects are dizygotic twins, your approach seems not modeling the correlation between a DZ twin pair. 2) Only 4 families have extra siblings. I'm worried it would be hard to estimate the random effects for the siblings based on only those 4 families. Because the difference between a DZ twin pair and another sibling is relatively small (mainly environmental, not genetic), maybe I can simply ignore the subtle difference of twin vs. sibling, and treat those few siblings as twins with random effects as in your model or with correlated residuals as in my OP.
bluepole
This approach does model the correlation between twins. For example, if their predictor values are 0, then the correlation between twins is
σ02+σ12σ02+σ12+σε2
where σ02,σ12 are the variances of ηi0,ηi1, respectively and σε2 is the variance of the error term. When the predictor values are not 0, this expression will also involve the variances of the other two random effects.
Macro
You're right that, since there are few non-twins, the variances of ηi0 and ηi2 are going to be difficult to estimate. You can leave them out, but you don't lose anything by using the model I've suggested but possibly computational brevity. If you do, you're effectively assuming that non-twin siblings are independent. But you can still be using those observations to estimate the mean parameters (i.e. don't leave them out of the model fitting). Or, as you said, you can just act as though regular siblings are the same as twins, and you wouldn't need to dummy coding at all.
Macro