Ich habe 100 Patienten und jeder Patient hat 10 longitudinale Serumkreatininmessungen. Die geschätzten glomerulären Filtrationsraten (eGFR) wurden aus einer MDRD-Formel berechnet, die Geschlecht, Alter und Serumkreatinin umfasste. eGFR ist die abhängige Variable und die Zeit ist die unabhängige Variable in der linearen Regression für jeden Patienten.
- Verstoßen lineare Regressionen gegen die Annahme des "unabhängigen X" und sollten stattdessen lineare gemischte Modelle verwendet werden?
- Können von jedem Patienten geschätzte eGFR-Steigungen (Schätzungen mit Unsicherheiten anstelle von gemessenen Zahlen) (in linearen Regressionen für jeden Patienten oder in gemischten Modellen mit zufälligen Effekten [wie werden Steigungen für jeden einzelnen Patienten in gemischten Modellen geschätzt?]) Als verwendet werden unabhängige oder abhängige Variablen in anderen Regressionsmodellen?
Vielen Dank.
regression
mixed-model
repeated-measures
panel-data
Jinn-Yuh Guh
quelle
quelle
Antworten:
Tatsächlich schlagen Sie vor, die lineare Regression als mathematisches Verfahren zu verwenden, um eine Beobachtung mit 10 Variablen in einer einzigen Variablen (der Steigung) zu verdichten. Als solches ist es nur ein weiteres Beispiel für ähnliche Verfahren wie (sagen wir) das Verwenden eines Durchschnitts wiederholter Messungen als Regressionsvariable oder das Einbeziehen von Hauptkomponentenwerten in eine Regression.
Spezifische Kommentare folgen.
(1) Für die lineare Regression müssen die X (unabhängigen Variablen) nicht "unabhängig" sein. In der Standardformulierung gilt das Konzept der Unabhängigkeit nicht einmal, da die X feste Werte sind, keine Realisierungen einer Zufallsvariablen.
(2) Ja, Sie können die Steigungen als abhängige Variablen verwenden. Es wäre hilfreich festzustellen, dass sie sich bei der linearen Regression möglicherweise wie die abhängige Variable verhalten. Für gewöhnliche kleinste Quadrate bedeutet dies, dass
ein. Steigungen können von einigen Patientenattributen abhängen.
b. Die Abhängigkeit ist zumindest für den Bereich der beobachteten Patientenattribute annähernd linear.
c. Jede Abweichung zwischen einer beobachteten Steigung und der hypothetischen Steigung kann als zufällig angesehen werden.
d. Diese zufällige Variation ist (i) unabhängig von Patient zu Patient und (ii) hat ungefähr die gleiche Verteilung von Patient zu Patient.
e. Nach wie vor werden die unabhängigen Variablen nicht als zufällig angesehen, sondern als fest und ohne nennenswerten Fehler gemessen.
Wenn alle diese Bedingungen ungefähr zutreffen, sollten Sie in Ordnung sein. Verstöße gegen (d) oder (e) können durch Verallgemeinerungen gewöhnlicher kleinster Quadrate geheilt werden.
(2 '). Da die Steigungen eine Unsicherheit aufweisen (gemessen in der zur Schätzung der Steigungen verwendeten Regression), sind sie möglicherweise keine guten Kandidaten für unabhängige Variablen, es sei denn, Sie behandeln sie in einem gemischten Modell als zufällig oder verwenden ein Modell für Fehler in Variablen.
Sie können diese Situation auch mit einem hierarchischen Bayes-Modell bewältigen .
quelle