Die Logik der Multiplen Imputation (MI) besteht darin, die fehlenden Werte nicht nur einmal, sondern mehrmals (typischerweise M = 5) zu unterstellen, was zu M vollständigen Datensätzen führt. Die M vervollständigten Datensätze werden dann mit Verfahren für vollständige Daten analysiert, bei denen die M Schätzungen und ihre Standardfehler unter Verwendung von Rubins Formeln kombiniert werden, um die "Gesamt" Schätzung und ihren Standardfehler zu erhalten.
Bisher großartig, aber ich bin nicht sicher, wie ich dieses Rezept anwenden soll, wenn es um Varianzkomponenten eines Mixed-Effects-Modells geht. Die Stichprobenverteilung einer Varianzkomponente ist asymmetrisch - daher kann das entsprechende Konfidenzintervall nicht in der typischen Form "Schätzung ± 1,96 * se (Schätzung)" angegeben werden. Aus diesem Grund liefern die R-Pakete lme4 und nlme nicht einmal die Standardfehler der Varianzkomponenten, sondern nur Konfidenzintervalle.
Wir können daher eine MI für einen Datensatz durchführen und dann M Konfidenzintervalle pro Varianzkomponente erhalten, nachdem wir dasselbe Mischeffektmodell für die M vervollständigten Datensätze angepasst haben. Die Frage ist, wie diese M-Intervalle zu einem "Gesamt" -Vertrauensintervall kombiniert werden können.
Ich denke, das sollte möglich sein - die Autoren eines Artikels (yucel & demirtas (2010)) scheinen es getan zu haben, aber sie erklären nicht genau, wie.
Trinkgelder wären sehr dankbar!
Prost, Rok
Antworten:
Das ist eine tolle Frage! Ich bin mir nicht sicher, ob dies eine vollständige Antwort ist, aber ich schreibe diese paar Zeilen weg, falls es hilft.
Es scheint, dass Yucel und Demirtas (2010) auf eine ältere Veröffentlichung verweisen, die im JCGS, Computational Strategies for Multivariate Linear Mixed-Effects-Modelle mit fehlenden Werten , veröffentlicht wurde. Dabei wird ein hybrider EM / Fisher-Scoring-Ansatz verwendet, um wahrscheinlichkeitsbasierte Schätzungen der VCs zu erstellen . Es wurde im R-Paket mlmmm implementiert . Ich weiß jedoch nicht, ob es CIs produziert.
Andernfalls würde ich auf jeden Fall das WinBUGS- Programm überprüfen , das hauptsächlich für Modelle mit mehreren Ebenen verwendet wird, einschließlich solcher mit fehlenden Daten. Ich scheine mich zu erinnern, dass es nur funktioniert, wenn sich Ihr MV in der Antwortvariablen befindet, nicht in den Kovariaten, da wir im Allgemeinen die vollständigen bedingten Verteilungen angeben müssen (wenn MV in den unabhängigen Variablen vorhanden ist, bedeutet dies, dass wir vor angeben müssen die fehlenden Xs, und das wird als ein von WinBUGS zu schätzender Parameter angesehen ...). Es scheint auch auf R zuzutreffen, wenn ich mich auf den folgenden Thread zu r-sig-mixed, fehlenden Daten in lme, lmer, PROC MIXED beziehe . Es kann sich auch lohnen, sich die MLwiN- Software anzusehen .
quelle
Wiederholter Kommentar von oben:
Ich bin nicht sicher, ob es überhaupt eine richtige analytische Lösung für dieses Problem gibt. Ich habe mir zusätzliche Literatur angesehen, aber dieses Problem wird überall elegant übersehen. Mir ist auch aufgefallen, dass Yucel & Demirtas (in dem Artikel, den ich erwähnt habe, Seite 798) Folgendes schreiben:
Es scheint, als hätten sie eine Abkürzung verwendet, um die SE der Varianzkomponente zu schätzen (was natürlich unangemessen ist, da das CI asymmetrisch ist) und dann die klassische Formel angewendet.
quelle
Haftungsausschluss: Diese Idee ist möglicherweise dumm und ich werde nicht so tun, als ob ich die theoretischen Implikationen dessen, was ich vorschlage, verstehe.
" Vorschlag " : Warum unterstellen Sie nicht einfach 100 (ich weiß, dass Sie normalerweise 5) Datensätze, führen die lme4 oder nmle aus, erhalten die Konfidenzintervalle (Sie haben 100 davon) und dann:
Testen Sie mit einer kleinen Intervallbreite (z. B. range / 1000 oder so) den Bereich der möglichen Werte für jeden Parameter und schließen Sie nur die kleinen Intervalle ein, die in mindestens 95 der 100 CIs auftreten. Sie würden dann einen Monte-Carlo-Durchschnitt Ihrer Konfidenzintervalle erhalten.
Ich bin sicher, dass es Probleme (oder vielleicht theoretische Probleme) mit diesem Ansatz gibt. Sie könnten beispielsweise mit einer Reihe von nicht zusammenhängenden Intervallen enden . Dies kann je nach Fachgebiet eine schlechte Sache sein oder auch nicht. Beachten Sie, dass dies nur möglich ist, wenn Sie mindestens zwei vollständig nicht überlappende Konfidenzintervalle haben, die durch eine Region mit weniger als 95% Deckung getrennt sind.
Sie könnten auch etwas näher an die Bayes'sche Behandlung fehlender Daten denken, um eine posteriore glaubwürdige Region zu erhalten, die sicherlich besser geformt und theoretischer unterstützt wäre als mein Ad-hoc-Vorschlag.
quelle