Ich bin ein Epidemiologe, der versucht, GEEs zu verstehen, um eine Kohortenstudie richtig zu analysieren (unter Verwendung der Poisson-Regression mit einem Log-Link, um das relative Risiko abzuschätzen). Ich habe ein paar Fragen zur "funktionierenden Korrelation", die ich von einem Fachmann klären lassen möchte:
(1) Ist es in der Regel am sinnvollsten, eine austauschbare Struktur anzunehmen, wenn ich bei derselben Person wiederholte Messungen durchgeführt habe? (Oder ein Autoregressiv, wenn Messungen einen Trend zeigen)? Was ist mit Unabhängigkeit - gibt es Fälle, in denen man für Messungen an ein und derselben Person Unabhängigkeit annehmen könnte?
(2) Gibt es eine (einigermaßen einfache) Möglichkeit, die ordnungsgemäße Struktur durch Prüfung der Daten zu beurteilen?
(3) Ich habe festgestellt, dass ich bei der Auswahl einer Unabhängigkeitsstruktur die gleichen Punktschätzungen erhalte (aber geringere Standardfehler) wie bei der Ausführung einer einfachen Poisson-Regression (mit R, Funktion glm()
und geeglm()
aus Paket geepack
). Warum passiert das? Ich verstehe, dass Sie mit GEEs ein bevölkerungsgemitteltes Modell schätzen (im Gegensatz zu subjektspezifisch), sodass Sie nur im Fall der linearen Regression die gleichen Punktschätzungen erhalten sollten.
(4) Wenn sich meine Kohorte an mehreren Standorten befindet (aber eine Messung pro Person), sollte ich eine Unabhängigkeit oder eine austauschbare Arbeitskorrelation wählen und warum? Ich meine, Individuen an jedem Standort sind immer noch unabhängig voneinander, oder? So würde ich zum Beispiel für ein fachspezifisches Modell die Site als zufälligen Effekt angeben. Bei GEE ergeben Unabhängigkeit und Austauschbarkeit jedoch unterschiedliche Schätzungen, und ich bin nicht sicher, welche hinsichtlich der zugrunde liegenden Annahmen besser ist.
(5) Kann GEE ein hierarchisches Clustering auf 2 Ebenen durchführen, dh eine Kohorte mit mehreren Standorten mit wiederholten Messungen pro Person? Wenn ja, was sollte ich als Clustering-Variable angeben geeglm()
und wie sollte die funktionierende Korrelation aussehen, wenn man zum Beispiel "Unabhängigkeit" für die erste Ebene (Standort) und "austauschbar" oder "autoregressiv" für die zweite Ebene (individuell) annimmt?
Ich verstehe, dass dies eine ganze Reihe von Fragen sind, von denen einige recht einfach sind, aber für mich (und vielleicht auch für andere Neulinge?) Immer noch sehr schwierig zu erfassen sind. Daher wird jede Hilfe sehr und aufrichtig geschätzt, und um dies zu zeigen, habe ich ein Kopfgeld ausgesetzt.
(1) Sie werden wahrscheinlich eine Art autoregressive Struktur benötigen, weil wir davon ausgehen, dass weiter auseinander liegende Messungen weniger korrelieren als diejenigen, die näher beieinander liegen. Austauschbar würde annehmen, dass sie alle gleich korreliert sind. Aber wie bei allem anderen kommt es darauf an.
(2) Ich denke, diese Art von Entscheidung hängt davon ab, wie die Daten generiert wurden, anstatt zu sehen, wie sie aussehen.
(4) es kommt darauf an. Beispielsweise sollten Kinder, die in Schulen untergebracht sind, in den meisten Fällen nicht als unabhängig behandelt werden. Wenn ich aufgrund sozialer Muster etwas über ein Kind in einer bestimmten Schule weiß, dann weiß ich wahrscheinlich zumindest ein bisschen über andere Kinder in den Schulen. Ich habe GEE einmal verwendet, um die Beziehungen zwischen verschiedenen sozialen und wirtschaftlichen Indikatoren und der Adipositasprävalenz in einer Geburtskohorte zu untersuchen, in der die Teilnehmer in Stadtvierteln untergebracht waren. Ich habe eine austauschbare Struktur verwendet. Sie können das Papier hier finden und einige der Referenzen überprüfen, darunter 2 aus Epi-Zeitschriften.
(5) Anscheinend (siehe z. B. dieses Beispiel ), aber ich kann nicht mit den R-Spezifikationen helfen, dies zu tun.
Zeger SL, Liang KY, Albert PS. Modelle für longitudinale Daten: ein verallgemeinerter Schätzgleichungsansatz. Biometrie. 1988; 44: 1049–60.
Hubbard AE, Ahern J., Fleischer N., van der Laan M., Lippman S., Bruckner T., Satariano W. Nach GEE oder nicht nach GEE: Vergleich von Schätzfunktion und wahrscheinlichkeitsbasierten Methoden zur Abschätzung der Assoziationen zwischen Stadtteilen und Gesundheit. Epidemiologie. 2009
Hanley JA, Negassa A., Edwardes MDB, Forrester JE. Statistische Analyse korrelierter Daten unter Verwendung verallgemeinerter Schätzgleichungen: eine Orientierung. Am J Epidemiol. 2003; 157: 364.
quelle
(0) Allgemeine Bemerkungen: Die meisten Modelle, die ich auf crossvalidated sehe, sind viel zu kompliziert. Vereinfachen Sie, wenn überhaupt möglich. Es lohnt sich oft, mit GEE und einem gemischten Modell zu modellieren, um die Ergebnisse zu vergleichen.
(1) ja Wählen Sie austauschbar. Meine eindeutige Antwort basiert auf dem am häufigsten angepriesenen Vorteil von GEE: Beständigkeit der Schätzungen gegenüber den getroffenen Annahmen.
Wenn Sie sich Studien in Ihrem Fachgebiet ansehen, sollten Sie feststellen, dass Austausch die Standardoption ist. Das bedeutet nicht, dass es das Beste ist, aber es sollte als erstes in Betracht gezogen werden. Ein Beratungsaustausch ist die beste Beratung, ohne dass Sie Ihre Daten genau kennen.
(2) Ja, es gibt datengetriebene Ansätze wie "QIC". Dies ist ein Beispiel von Stata, das jedoch allgemein als vernünftige Option akzeptiert wird, obwohl es in der Praxis sehr selten verwendet wird:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Punktschätzungen sind genau die gleiche nie (es sei denn , Sie indep Korrelationsstruktur) verwenden, sondern sind in der Regel ziemlich nahe. Es gibt viele Artikel, in denen einfache / gee / mixed effects Modellschätzungen verglichen werden, um ein Gefühl dafür zu bekommen ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ). Die meisten Lehrbücher haben auch eine Tabelle oder zwei dafür. Für eine unabhängige Korrelationsstruktur führen Sie im Wesentlichen das Poisson-Modell mit robusten SEs aus. Die Schätzungen werden also exakt gleich sein. Die SE sind meist größer. Aber manchmal sind robuste SE kleiner (das ist das Leben: geben Sie bei Interesse eine schmerzfreie Erklärung)
(4) Siehe (1) und (2) oben.
(5) Nein. Oder besser gesagt, Sie können alles tun, wenn Sie sich genug anstrengen, aber die Mühe lohnt sich sehr selten.
quelle
Sie verwenden den falschen Ansatz mit einem Ge, um das zu tun, was Sie tun, weil Sie die Struktur nicht kennen und Ihre Ergebnisse wahrscheinlich verwechselt werden. Wenden Sie sich hierzu an Jamie Robinson. Sie müssen lange verwenden. TMLE (Mark van der Laan) oder vielleicht ein Junge mit iptw-Gewichten. Wenn die Korrelation nicht berücksichtigt wird, wird die Varianz unterschätzt. Denken Sie nur, wenn alle wiederholten Messungen zu 100% korreliert wären, hätten Sie effektiv weniger Beobachtungen (im Wesentlichen nur n für Ihre n Probanden) und ein kleineres n bedeutet höhere Varianz.
quelle