Ich beziehe mich auf dieses Papier: Hayes JR, Groner JI. "Mithilfe multipler Imputations- und Neigungsbewertungen können Sie die Auswirkung der Verwendung von Autositzen und Sicherheitsgurten auf den Schweregrad von Verletzungen anhand von Daten aus dem Unfallregister testen." J Pediatr Surg. 2008 May; 43 (5): 924 & ndash; 7.
In dieser Studie wurde eine multiple Imputation durchgeführt, um 15 vollständige Datensätze zu erhalten. Die Neigungsbewertungen wurden dann für jeden Datensatz berechnet. Dann wurde für jede Beobachtungseinheit zufällig ein Datensatz aus einem der vervollständigten 15 Datensätze (einschließlich der zugehörigen Neigungsbewertung) ausgewählt, wodurch ein einzelner endgültiger Datensatz erstellt wurde, für den dann eine Neigungsbewertung durchgeführt wurde.
Meine Fragen sind: Ist dies eine gültige Methode, um einen Neigungswertabgleich nach mehrfacher Imputation durchzuführen? Gibt es alternative Möglichkeiten?
Zum Kontext: In meinem neuen Projekt möchte ich die Auswirkungen von zwei Behandlungsmethoden mithilfe des Propensity-Score-Matchings vergleichen. Es fehlen Daten, und ich beabsichtige, das MICE
Paket in R zu verwenden, um fehlende Werte zu unterstellen, dann twang
den Neigungsscore-Abgleich durchzuführen und dann lme4
die abgeglichenen Daten zu analysieren.
Update1:
Ich habe dieses Papier gefunden, das einen anderen Ansatz verfolgt: Mitra, Robin und Reiter, Jerome P. (2011) Übereinstimmende Propensitätsbewertung mit fehlenden Kovariaten über iterierte, sequentielle multiple Imputation [Working Paper]
In diesem Artikel berechnen die Autoren Neigungsbewertungen für alle unterstellten Datensätze und bündeln sie dann durch Mittelung, was im Sinne einer Mehrfachzuschreibung unter Verwendung von Rubins Regeln für eine Punktschätzung ist - aber ist es wirklich für eine Neigungsbewertung anwendbar?
Es wäre wirklich nett, wenn jemand im Lebenslauf eine Antwort mit Kommentaren zu diesen zwei verschiedenen Ansätzen und / oder zu anderen geben könnte.
quelle
cobalt
Paket mit dem Titel "Verwenden von Cobalt mit komplizierten Daten" enthalten. Sie können hier darauf zugreifen: CRAN.R-project.org/package=cobaltEs könnte einen Konflikt zwischen zwei Paradigmen geben. Multiple Imputation ist eine stark modellbasierte Bayes'sche Lösung: Das Konzept der korrekten Imputation besagt im Wesentlichen, dass Sie aus der wohldefinierten posterioren Verteilung der Daten eine Stichprobe ziehen müssen, andernfalls sind Sie geschraubt. Der Propensity-Score-Abgleich ist hingegen ein semiparametrisches Verfahren: Wenn Sie Ihren Propensity-Score berechnet haben (unabhängig davon, wie Sie eine Schätzung der Kerneldichte hätten verwenden können, nicht unbedingt ein Logit-Modell), können Sie den Rest erledigen Indem Sie einfach die Unterschiede zwischen den behandelten und den nicht behandelten Beobachtungen mit dem gleichen Neigungswert messen, der jetzt nicht mehr parametrisch ist, da es kein Modell mehr gibt, das andere Kovariaten kontrolliert. Ich ziehe anAbadie und Imbens (2008) diskutierten, dass es unmöglich ist, die Standardfehler in einigen Übereinstimmungssituationen richtig zu machen. Ich würde den glatteren Ansätzen wie der Gewichtung durch die umgekehrte Neigung mehr Vertrauen schenken. Meine Lieblingsreferenz dazu ist "Mostly Harmless Econometrics" mit dem Untertitel "An Empiricist Companion" und richtet sich an Ökonomen, aber ich denke, dieses Buch sollte eine Pflichtlektüre für andere Sozialwissenschaftler, die meisten Biostatistiker und auch Nicht-Biostatistiker sein dass sie wissen, wie andere Disziplinen die Datenanalyse angehen.
In jedem Fall entspricht die Verwendung von nur einer von 15 simulierten vollständigen Datenzeilen pro Beobachtung einer einzelnen Imputation. Infolgedessen verlieren Sie die Effizienz im Vergleich zu allen 15 abgeschlossenen Datensätzen und können die Standardfehler nicht richtig einschätzen. Sieht für mich aus jedem Blickwinkel nach einem mangelhaften Verfahren aus.
Natürlich gehen wir gerne von der Annahme aus, dass sowohl das Multiple-Imputation-Modell als auch das Propensity-Modell in dem Sinne korrekt sind, dass alle richtigen Variablen in allen richtigen funktionalen Formen vorliegen. Es gibt kaum eine Möglichkeit, dies zu überprüfen (obwohl ich gerne etwas anderes über diagnostische Maßnahmen für beide Methoden erfahren würde).
quelle
Ich kann nicht wirklich mit den theoretischen Aspekten der Frage sprechen, aber ich gebe meine Erfahrung mit PS / IPTW-Modellen und multipler Imputation.
quelle