Was ist der Unterschied zwischen einem GLM-Modell (logistische Regression) mit einer binären Antwortvariablen, die Subjekt und Zeit als Kovariaten enthält, und dem analogen GEE-Modell, das die Korrelation zwischen Messungen zu mehreren Zeitpunkten berücksichtigt?
Mein GLM sieht aus wie:
Y(binary) ~ A + B1X1(subject id) + B2X2(time)
+ B3X3(interesting continuous covariate)
mit Logit Link Funktion.
Ich suche nach einer einfachen (an den Sozialwissenschaftler gerichteten) Erklärung, wie und warum Zeit in beiden Modellen unterschiedlich behandelt wird und welche Auswirkungen dies auf die Interpretation haben würde.
Antworten:
Es gibt vielleicht eine bessere und detailliertere Antwort, aber ich kann Ihnen einige einfache, schnelle Gedanken geben. Es scheint, dass Sie über die Verwendung eines verallgemeinerten linearen Modells (z. B. einer typischen logistischen Regression) sprechen, um die Daten einiger Probanden zu mehreren Zeitpunkten anzupassen. Auf den ersten Blick sehe ich zwei krasse Probleme mit diesem Ansatz.
Erstens geht dieses Modell davon aus, dass Ihre Daten angesichts der Kovariaten unabhängig sind (dh nachdem Sie für jedes Subjekt einen Dummy-Code berücksichtigt haben, der einem einzelnen Intercept-Term ähnelt, und einen linearen Zeittrend, der für alle gleich ist). Es ist sehr unwahrscheinlich, dass dies wahr ist. Stattdessen wird es mit ziemlicher Sicherheit Autokorrelationen geben, zum Beispiel werden zwei zeitlich näher beieinander liegende Beobachtungen desselben Individuums ähnlicher sein als zwei zeitlich weiter voneinander entfernte Beobachtungen, selbst nachdem die Zeit berücksichtigt wurde . (Obwohl sie durchaus unabhängig sind, wenn Sie auch eine
subject ID x time
Interaktion einbeziehen - dh einen einzigartigen Zeittrend für alle -, würde dies das nächste Problem verschärfen.)Zweitens werden Sie eine enorme Anzahl von Freiheitsgraden verbrennen, indem Sie einen Parameter für jeden Teilnehmer schätzen. Es ist wahrscheinlich, dass Sie nur noch relativ wenige Freiheitsgrade haben, um Ihre interessierenden Parameter genau abzuschätzen (dies hängt natürlich davon ab, wie viele Messungen Sie pro Person durchführen).
Ironischerweise bedeutet das erste Problem, dass Ihre Konfidenzintervalle zu eng sind, während das zweite bedeutet, dass Ihre CIs viel breiter sind als wenn Sie nicht die meisten Ihrer Freiheitsgrade verschwendet hätten. Ich würde jedoch nicht damit rechnen, dass diese beiden sich gegenseitig ausgleichen. Für das, was es wert ist, glaube ich, dass Ihre Parameterschätzungen unvoreingenommen wären (obwohl ich hier möglicherweise falsch liege).
In diesem Fall ist die Verwendung der verallgemeinerten Schätzungsgleichungen angemessen. Wenn Sie ein Modell mit GEE passen, geben Sie eine Korrelations - Struktur (wie AR (1)), und es kann durchaus sinnvoll sein , dass Ihre Daten bedingte unabhängig sind auf beiden Kovariaten und der Korrelationsmatrix Sie angegeben haben . Darüber hinaus schätzt die GEE die durchschnittliche Bevölkerungszuordnung, sodass Sie nicht für jeden Teilnehmer einen Freiheitsgrad verbrennen müssen - im Wesentlichen werden Sie über diese gemittelt.
Soweit mir bekannt ist, wäre die Interpretation in beiden Fällen dieselbe: Da die anderen Faktoren konstant bleiben, ist eine Änderung von X3 um eine Einheit mit einer B3-Änderung der logarithmischen Erfolgsaussichten verbunden. .
quelle