Kombinieren von Konfidenzintervallen für eine Varianzkomponente eines Mixed-Effects-Modells bei Verwendung mehrerer Imputationen

20

Die Logik der Multiplen Imputation (MI) besteht darin, die fehlenden Werte nicht nur einmal, sondern mehrmals (typischerweise M = 5) zu unterstellen, was zu M vollständigen Datensätzen führt. Die M vervollständigten Datensätze werden dann mit Verfahren für vollständige Daten analysiert, bei denen die M Schätzungen und ihre Standardfehler unter Verwendung von Rubins Formeln kombiniert werden, um die "Gesamt" Schätzung und ihren Standardfehler zu erhalten.

Bisher großartig, aber ich bin nicht sicher, wie ich dieses Rezept anwenden soll, wenn es um Varianzkomponenten eines Mixed-Effects-Modells geht. Die Stichprobenverteilung einer Varianzkomponente ist asymmetrisch - daher kann das entsprechende Konfidenzintervall nicht in der typischen Form "Schätzung ± 1,96 * se (Schätzung)" angegeben werden. Aus diesem Grund liefern die R-Pakete lme4 und nlme nicht einmal die Standardfehler der Varianzkomponenten, sondern nur Konfidenzintervalle.

Wir können daher eine MI für einen Datensatz durchführen und dann M Konfidenzintervalle pro Varianzkomponente erhalten, nachdem wir dasselbe Mischeffektmodell für die M vervollständigten Datensätze angepasst haben. Die Frage ist, wie diese M-Intervalle zu einem "Gesamt" -Vertrauensintervall kombiniert werden können.

Ich denke, das sollte möglich sein - die Autoren eines Artikels (yucel & demirtas (2010)) scheinen es getan zu haben, aber sie erklären nicht genau, wie.

Trinkgelder wären sehr dankbar!

Prost, Rok

Rok
quelle
Eine sehr interessante Frage. Ich freue mich auf Ihre Ergebnisse, wenn Sie sie teilen möchten ...
chl
@chl: Ich kann dir die Tabellen mit den Ergebnissen schicken, wenn ich fertig bin, aber ich werde wirklich nichts Neues erfinden. Bisher plane ich nur, MI unter einem zweistufigen Imputationsmodell (R-Paket-Pan) mit MI unter einem einfachen normalen Modell (ohne Berücksichtigung der zweistufigen Struktur, R-Paket-Norm) zu vergleichen und listweise zu löschen. Bei unterschiedlichen Stichprobengrößen, Werten der Varianzkomponente usw. Dies sollte für das Seminar (ich bin Doktorand) ausreichend sein, aber nicht gerade wegweisend. Wenn Sie Ideen haben, wie Sie die Simulationsstudie "aufpeppen" können, würde ich gerne davon hören.
Rok
1
Eine andere Sache: Ich bin nicht sicher, ob es überhaupt eine richtige analytische Lösung für dieses Problem gibt. Ich habe mir zusätzliche Literatur angesehen, aber dieses Problem wird überall elegant behandelt. Ich habe auch bemerkt, dass yucel & demirtas (in dem Artikel, den ich erwähnt habe, Seite 798) Folgendes schreiben: „Diese mehrfach unterstellten Datensätze wurden verwendet, um das Modell […] unter Verwendung des R-Pakets lme4 zu schätzen, was zu 10 Sätzen von (beta, se (beta) führte. ), (sigma_b, se (sigma_b)), die dann unter Verwendung der von Rubin definierten MI-Kombinationsregeln kombiniert wurden. ”
Rok
Es scheint, dass sie eine Art Abkürzung verwendet haben, um die SE der Varianzkomponente zu schätzen (was natürlich unangemessen ist, da das CI asymmetrisch ist) und dann die klassische Formel angewendet haben.
Rok
Ok, danke dafür. Können Sie Ihre Kommentare in eine Antwort einfügen, damit über sie abgestimmt werden kann?
Chl

Antworten:

8

Das ist eine tolle Frage! Ich bin mir nicht sicher, ob dies eine vollständige Antwort ist, aber ich schreibe diese paar Zeilen weg, falls es hilft.

Es scheint, dass Yucel und Demirtas (2010) auf eine ältere Veröffentlichung verweisen, die im JCGS, Computational Strategies for Multivariate Linear Mixed-Effects-Modelle mit fehlenden Werten , veröffentlicht wurde. Dabei wird ein hybrider EM / Fisher-Scoring-Ansatz verwendet, um wahrscheinlichkeitsbasierte Schätzungen der VCs zu erstellen . Es wurde im R-Paket mlmmm implementiert . Ich weiß jedoch nicht, ob es CIs produziert.

Andernfalls würde ich auf jeden Fall das WinBUGS- Programm überprüfen , das hauptsächlich für Modelle mit mehreren Ebenen verwendet wird, einschließlich solcher mit fehlenden Daten. Ich scheine mich zu erinnern, dass es nur funktioniert, wenn sich Ihr MV in der Antwortvariablen befindet, nicht in den Kovariaten, da wir im Allgemeinen die vollständigen bedingten Verteilungen angeben müssen (wenn MV in den unabhängigen Variablen vorhanden ist, bedeutet dies, dass wir vor angeben müssen die fehlenden Xs, und das wird als ein von WinBUGS zu schätzender Parameter angesehen ...). Es scheint auch auf R zuzutreffen, wenn ich mich auf den folgenden Thread zu r-sig-mixed, fehlenden Daten in lme, lmer, PROC MIXED beziehe . Es kann sich auch lohnen, sich die MLwiN- Software anzusehen .

chl
quelle
Vielen Dank für Ihre Antwort! Grundsätzlich interessiert mich auch, wie man ein konkretes Problem wie das beschriebene löst (also danke für den WinBUGS-Tipp). Aber im Moment versuche ich, eine Simulationsstudie für eine Seminararbeit zu machen, in der ich die Leistung (Abdeckungsraten usw.) von MI unter Modellfehlspezifikation untersuchen würde. Ich nehme an, ich werde die Varianzkomponenten einfach vergessen, wenn ich keine Lösung finden und mich auf die festen Effekte konzentrieren kann, aber es ist frustrierend, aufzugeben.
Rok
@Rok Tolle Idee für die Simulation! Ich freue mich auf dieses spezielle Thema. Ich nehme an, Sie durchsuchen bereits das r-sig-mixed-Mailing und Gelmans Buch zur Regression auf
mehreren Ebenen
Ich habe jetzt gesucht, Tanks für die Referenzen! Leider gibt es im r-sig-mixed-Archiv nichts zu MI. und Gelman gibt nur die Grundformel an, wie Schlussfolgerungen aus MI kombiniert werden können, wenn Variationen innerhalb und zwischen den angegebenen Imputationen vorliegen (§25.7).
Rok
6

Wiederholter Kommentar von oben:

Ich bin nicht sicher, ob es überhaupt eine richtige analytische Lösung für dieses Problem gibt. Ich habe mir zusätzliche Literatur angesehen, aber dieses Problem wird überall elegant übersehen. Mir ist auch aufgefallen, dass Yucel & Demirtas (in dem Artikel, den ich erwähnt habe, Seite 798) Folgendes schreiben:

Diese mehrfach unterstellten Datensätze wurden verwendet, um das Modell […] unter Verwendung des R-Pakets zu schätzen, das lme4zu 10 Sätzen von (beta, se (beta)), (sigma_b, se (sigma_b)) führte, die dann unter Verwendung der MI-Kombinationsregeln kombiniert wurden, die durch definiert wurden Einreiben.

Es scheint, als hätten sie eine Abkürzung verwendet, um die SE der Varianzkomponente zu schätzen (was natürlich unangemessen ist, da das CI asymmetrisch ist) und dann die klassische Formel angewendet.

Rok
quelle
Ich bin dankbar, dass Sie zurückgekommen sind, um Ihre Erfahrungen mit diesem Problem zu teilen. Leider habe ich keine wirkliche Lösung, aber vielleicht kommen andere Vorschläge.
Chl
"Elegant übersehen" ... das ist ein nützlicher Ausdruck für die Durchsicht der Literatur, falls ich jemals eine gehört habe.
Matt Parker
3

Haftungsausschluss: Diese Idee ist möglicherweise dumm und ich werde nicht so tun, als ob ich die theoretischen Implikationen dessen, was ich vorschlage, verstehe.

" Vorschlag " : Warum unterstellen Sie nicht einfach 100 (ich weiß, dass Sie normalerweise 5) Datensätze, führen die lme4 oder nmle aus, erhalten die Konfidenzintervalle (Sie haben 100 davon) und dann:

Testen Sie mit einer kleinen Intervallbreite (z. B. range / 1000 oder so) den Bereich der möglichen Werte für jeden Parameter und schließen Sie nur die kleinen Intervalle ein, die in mindestens 95 der 100 CIs auftreten. Sie würden dann einen Monte-Carlo-Durchschnitt Ihrer Konfidenzintervalle erhalten.

Ich bin sicher, dass es Probleme (oder vielleicht theoretische Probleme) mit diesem Ansatz gibt. Sie könnten beispielsweise mit einer Reihe von nicht zusammenhängenden Intervallen enden . Dies kann je nach Fachgebiet eine schlechte Sache sein oder auch nicht. Beachten Sie, dass dies nur möglich ist, wenn Sie mindestens zwei vollständig nicht überlappende Konfidenzintervalle haben, die durch eine Region mit weniger als 95% Deckung getrennt sind.

Sie könnten auch etwas näher an die Bayes'sche Behandlung fehlender Daten denken, um eine posteriore glaubwürdige Region zu erhalten, die sicherlich besser geformt und theoretischer unterstützt wäre als mein Ad-hoc-Vorschlag.

M. Tibbits
quelle