Gemischtes Modell vs. Pooling von Standardfehlern für Studien mit mehreren Standorten - Warum ist ein gemischtes Modell so viel effizienter?

16

Ich habe einen Datensatz, der aus einer Reihe von monatlichen Fallzählungen für "kaputte Stöcke" von einer Handvoll Websites besteht. Ich versuche, eine einzige zusammenfassende Schätzung aus zwei verschiedenen Techniken zu erhalten:

Technik 1: Passen Sie einen "gebrochenen Stab" mit einem Poisson-GLM mit einer 0/1-Indikatorvariablen an und verwenden Sie eine Zeit- und Zeitvariable ^ 2, um Trends in der Zeit zu steuern. Die Schätzung und die SE dieser 0/1-Indikatorvariablen werden unter Verwendung einer ziemlich geraden Auf- und Ab-Methode der Momententechnik oder unter Verwendung des tlnise-Pakets in R zusammengefasst, um eine "Bayes'sche" Schätzung zu erhalten. Dies ähnelt dem, was Peng und Dominici mit Luftverschmutzungsdaten tun, jedoch mit weniger Standorten (~ ein Dutzend).

Technik 2: Verzichten Sie auf einen Teil der ortsspezifischen Steuerung für zeitliche Trends und verwenden Sie ein lineares gemischtes Modell. Insbesondere:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

Meine Frage betrifft die Standardfehler, die sich aus diesen Schätzungen ergeben. Der Standardfehler von Technik 1, der tatsächlich eine wöchentliche anstelle einer monatlichen Zeit verwendet und daher genauer sein sollte , weist einen Standardfehler bei der Schätzung von ~ 0,206 für die Methode der Momente und ~ 0,306 für die Zeit auf.

Die lmer-Methode ergibt einen Standardfehler von ~ 0,09. Die Effektschätzungen liegen ziemlich nahe beieinander, sodass es nicht so aussieht, als würden sie sich nur auf verschiedene zusammenfassende Schätzungen beschränken, da das gemischte Modell wesentlich effizienter ist.

Ist das etwas Vernünftiges zu erwarten? Wenn ja, warum sind gemischte Modelle so viel effizienter? Ist dies ein allgemeines Phänomen oder ein spezifisches Ergebnis dieses Modells?

Fomite
quelle
Diese Frage ist schwer zu beantworten, ohne genau zu wissen, welches Modell in Ihre Technik 1 passt. Sie erwähnen drei Möglichkeiten, aber so weit ich das beurteilen kann, entscheiden Sie sich niemals für eine. Dann sagen Sie später "Der Standardfehler von Technik 1 [...] ist ~ 0,206." Für welches Modell ist das der Standardfehler? Veröffentlichen Sie die Syntax, die Sie für die Anpassung dieses Modells verwendet haben, wie Sie es für Technik 2 getan haben? Noch besser wäre es, ein reproduzierbares Beispiel (nicht unbedingt Ihren Originaldatensatz) anzugeben, zu dem wir beide Modelle selbst passen könnten.
Jake Westfall
@JakeWestfall Du hast Recht, als ich das zum ersten Mal schrieb, war es eine Art Bewusstseinsstrom-Frage, als sich das Problem entwickelte. Ich werde etwas nachbearbeiten und sehen, ob es hilfreicher sein kann. Leider hat der Code irgendwo gewandert ...
Fomite
Ein wenig aufgeräumt - das Design der Modelle verwendet die gleichen Variablen. Leider befinden sich Code, Daten usw. auf einem anderen Computer und ich bin auf einer Konferenz. Die eigentliche Frage könnte sich meiner Meinung nach auf "Schätzungen für mehrere Standorte: Sind gemischte Modelle immer / oft effizienter als Pooling?"
Fomite

Antworten:

5

Ich weiß, dass dies eine alte Frage ist, aber sie ist relativ beliebt und hat eine einfache Antwort. Hoffentlich ist sie in Zukunft für andere hilfreich. Für eine tiefergehende, nehmen Sie einen Blick auf Christoph Lippert Kurs auf Lineare gemischte Modelle , die sie im Rahmen der genomweiten Assoziationsstudien untersucht hier . Siehe insbesondere Vorlesung 5 .

Der Grund, warum das gemischte Modell so viel besser funktioniert, ist, dass es genau berücksichtigt, worauf Sie abzielen: Bevölkerungsstruktur. Die "Populationen" in Ihrer Studie sind die verschiedenen Standorte, die beispielsweise leicht unterschiedliche, aber konsistente Implementierungen desselben Protokolls verwenden. Wenn es sich bei den Probanden Ihrer Studie um Personen handelt, ist die Wahrscheinlichkeit geringer, dass Personen, die an verschiedenen Standorten zusammengefasst wurden, miteinander verwandt sind als Personen an demselben Standort. Daher spielt möglicherweise auch die Blutverwandtschaft eine Rolle.

N(Y.|Xβ,σ2)KN(Y.|Xβ+Zu,σ2ich+σG2K)

Da Sie versuchen, die Populationsstruktur explizit zu steuern, überrascht es nicht, dass das lineare gemischte Modell andere Regressionstechniken übertroffen hat.

Michael K
quelle