Wie kann ich posteriore Mittel und glaubwürdige Intervalle nach mehrfacher Imputation zusammenfassen?

20

Ich habe mehrere Imputationen verwendet, um eine Reihe vollständiger Datensätze zu erhalten.

Ich habe bei jedem der vervollständigten Datensätze Bayes'sche Methoden verwendet, um die posterioren Verteilungen für einen Parameter zu erhalten (ein zufälliger Effekt).

Wie kann ich die Ergebnisse für diesen Parameter kombinieren / bündeln?


Mehr Kontext:

Mein Modell ist hierarchisch im Sinne von einzelnen Schülern (eine Beobachtung pro Schüler), die in Schulen zusammengefasst sind. Ich habe mehrere Imputationen (unter Verwendung von MICEin R) für meine Daten durchgeführt, wobei ich schoolals einen der Prädiktoren für die fehlenden Daten angegeben habe, um zu versuchen, die Datenhierarchie in die Imputationen einzubeziehen.

Ich habe jedem der vervollständigten Datensätze ein einfaches Modell mit zufälliger Steigung hinzugefügt (unter Verwendung MCMCglmmvon R). Das Ergebnis ist binär.

Ich habe festgestellt, dass die hinteren Dichten der zufälligen Steigungsvarianz in dem Sinne "gut benommen" sind, dass sie ungefähr so ​​aussehen: Bildbeschreibung hier eingeben

Wie kann ich die posterioren Mittelwerte und glaubwürdigen Intervalle aus jedem unterstellten Datensatz für diesen zufälligen Effekt kombinieren / bündeln?


Update1 :

Soweit ich weiß, könnte ich Rubins Regeln auf den posterioren Mittelwert anwenden, um einen multiplizierten posterioren Mittelwert zu erhalten - gibt es dabei irgendwelche Probleme? Aber ich habe keine Ahnung, wie ich die zu 95% glaubwürdigen Intervalle kombinieren kann. Könnte ich diese auch irgendwie kombinieren, da ich für jede Imputation eine tatsächliche Probe mit posteriorer Dichte habe?


Update2 :

Gemäß dem Vorschlag von @ cyan in den Kommentaren gefällt mir die Idee sehr, einfach die Stichproben aus den posterioren Verteilungen zu kombinieren, die aus jedem vollständigen Datensatz aus multipler Imputation erhalten wurden. Ich möchte jedoch die theoretische Begründung dafür kennen.

Joe King
quelle
Wenn das Fehlen eines bestimmten Datums vom zugehörigen Ergebniswert unabhängig ist, ist es richtig, alle hinteren Proben aus den verschiedenen kalkulatorischen Datensätzen zusammen zu werfen und die mittleren und zu 95% glaubwürdigen Intervalle der kombinierten hinteren Proben zu berechnen.
Cyan
@Cyan ist das dasselbe wie zu sagen, dass der Mechanismus der Fehlbarkeit entweder "zufällig" oder "völlig zufällig", aber nicht "nicht zufällig" fehlt (die üblichen Annahmen, die ich für die Durchführung von MI kennengelernt habe)? Kennen Sie einen Hinweis, wo dieses "Zusammenwerfen" formal gerechtfertigt ist?
Joe King
Multiple Imputation ist ein Bayes'sches Verfahren. Wenn Sie Bayes'sche Schätzmethoden (MCMC usw.) verwenden, sollten Sie die fehlenden Daten lediglich als zusätzlichen MCMC-Stichprobenschritt für ein vollständig Bayes'sches Modell simulieren und nicht versuchen, eine Schnittstelle zwischen diesen Ansätzen zu finden.
StasK
@StasK Vielen Dank für Ihren Kommentar. Ich werde versuchen, diesen Ansatz bei meinem nächsten Projekt zu verwenden, aber leider habe ich jetzt keine Zeit, das Modell zu ändern. Ich habe bereits die Imputationen und das Bayes'sche Modell für jeden imputierten Datensatz ausgeführt - die Ausführung dauerte fast 3 Wochen. Glaubst du, es ist für mich ungültig, die hinteren Proben zu kombinieren?
Joe King
Rubins Regeln gelten nur für Momente. Ich weiß nicht, ob Sie sie sinnvoll auf eine Distribution anwenden können. Vielleicht, vielleicht nicht. Das Beste, was Sie tun können, ist zu sagen, dass der MCMC-Lauf die Punktschätzungen (hintere Mittelwerte) und Standardfehler (hintere Varianzen) erstellt hat, und dann Rubins Regeln zu verwenden, um die Gesamtpunkt- und Varianzschätzungen zu erhalten. Sie wissen, wie tragisch die Verluste von dfs im hierarchischen Modell sein können und wie gefährlich es ist, die Daten zu bündeln: Wenn Sie jeweils 5 unterstellte vollständige Datensätze und 1 Million MCMC-Stichproben haben, bedeutet dies, dass Sie 5 Cluster und nicht 5 Millionen iid MCMC haben Punkte.
StasK

Antworten:

4

Mit besonders gut erzogenen Postern, die durch eine parametrische Beschreibung einer Verteilung angemessen beschrieben werden können, können Sie möglicherweise einfach den Mittelwert und die Varianz nehmen, die Ihren Postern am besten beschreiben, und von dort aus fortfahren. Ich vermute, dass dies in vielen Fällen angemessen ist, in denen Sie keine wirklich merkwürdigen hinteren Verteilungen erhalten.

Fomite
quelle
0

Wenn Sie stata verwenden, gibt es eine Prozedur namens "mim", mit der die Daten nach der Imputation für Modelle mit gemischten Effekten zusammengefasst werden. Ich weiß nicht, ob es in R verfügbar ist.

Omar
quelle
Vielen Dank. Möglicherweise habe ich es nicht gut erklärt. Ich habe bereits hintere Stichproben aus mehreren unterstellten Datensätzen und möchte wissen, ob ich diese einfach kombinieren und dann ein mehrfach unterstelltes glaubwürdiges Intervall bilden kann.
Joe King