Übereinstimmende Neigungsbewertung nach mehrfacher Imputation

34

Ich beziehe mich auf dieses Papier: Hayes JR, Groner JI. "Mithilfe multipler Imputations- und Neigungsbewertungen können Sie die Auswirkung der Verwendung von Autositzen und Sicherheitsgurten auf den Schweregrad von Verletzungen anhand von Daten aus dem Unfallregister testen." J Pediatr Surg. 2008 May; 43 (5): 924 & ndash; 7.

In dieser Studie wurde eine multiple Imputation durchgeführt, um 15 vollständige Datensätze zu erhalten. Die Neigungsbewertungen wurden dann für jeden Datensatz berechnet. Dann wurde für jede Beobachtungseinheit zufällig ein Datensatz aus einem der vervollständigten 15 Datensätze (einschließlich der zugehörigen Neigungsbewertung) ausgewählt, wodurch ein einzelner endgültiger Datensatz erstellt wurde, für den dann eine Neigungsbewertung durchgeführt wurde.

Meine Fragen sind: Ist dies eine gültige Methode, um einen Neigungswertabgleich nach mehrfacher Imputation durchzuführen? Gibt es alternative Möglichkeiten?

Zum Kontext: In meinem neuen Projekt möchte ich die Auswirkungen von zwei Behandlungsmethoden mithilfe des Propensity-Score-Matchings vergleichen. Es fehlen Daten, und ich beabsichtige, das MICEPaket in R zu verwenden, um fehlende Werte zu unterstellen, dann twangden Neigungsscore-Abgleich durchzuführen und dann lme4die abgeglichenen Daten zu analysieren.

Update1:

Ich habe dieses Papier gefunden, das einen anderen Ansatz verfolgt: Mitra, Robin und Reiter, Jerome P. (2011) Übereinstimmende Propensitätsbewertung mit fehlenden Kovariaten über iterierte, sequentielle multiple Imputation [Working Paper]

In diesem Artikel berechnen die Autoren Neigungsbewertungen für alle unterstellten Datensätze und bündeln sie dann durch Mittelung, was im Sinne einer Mehrfachzuschreibung unter Verwendung von Rubins Regeln für eine Punktschätzung ist - aber ist es wirklich für eine Neigungsbewertung anwendbar?

Es wäre wirklich nett, wenn jemand im Lebenslauf eine Antwort mit Kommentaren zu diesen zwei verschiedenen Ansätzen und / oder zu anderen geben könnte.

Joe King
quelle

Antworten:

20

Das erste, was ich sagen muss, ist, dass die Methode 1 (Stichprobe) für mich unbegründet zu sein scheint - sie verwirft die Vorteile der Mehrfachzuschreibung und reduziert sich, wie von Stas erwähnt, für jede Beobachtung auf eine Einzelzuschreibung. Ich sehe keinen Vorteil darin, es zu benutzen.

In Hill (2004) wird die Problematik der Neigungsscore-Analyse mit fehlenden Daten ausgezeichnet diskutiert: Hill, J. "Verringerung der Verzerrung bei der Abschätzung der Behandlungseffekte in Beobachtungsstudien mit fehlenden Daten" ISERP Working Papers, 2004. Es kann von heruntergeladen werden hier .

Der Aufsatz betrachtet zwei Ansätze zur Verwendung von multipler Imputation (und auch andere Methoden zum Umgang mit fehlenden Daten) und Neigungsbewertungen:

  • Mittelung der Neigungsbewertungen nach multipler Imputation, gefolgt von kausaler Inferenz (Methode 2 in Ihrem Beitrag oben)

  • kausale Inferenz unter Verwendung jedes Satzes von Neigungsbewertungen aus den multiplen Imputationen, gefolgt von einer Mittelung der kausalen Schätzungen.

Darüber hinaus wird geprüft, ob das Ergebnis als Prädiktor in das Imputationsmodell einbezogen werden sollte.

Hill behauptet, dass die Mehrfachzuschreibung zwar anderen Methoden zum Umgang mit fehlenden Daten vorgezogen wird, im Allgemeinen jedoch keine Vorabentscheidung getroffen werdeGrund, eine dieser Techniken der anderen vorzuziehen. Es kann jedoch Gründe geben, die Durchschnittsbewertung der Neigung zu bevorzugen, insbesondere wenn bestimmte Abgleichalgorithmen verwendet werden. Hill führte im selben Artikel eine Simulationsstudie durch und stellte fest, dass die Mittelung der Neigungswerte vor der kausalen Inferenz, wenn das Ergebnis in das Imputationsmodell einbezogen wurde, die besten Ergebnisse in Bezug auf den mittleren quadratischen Fehler und die Mittelung der Ergebnisse zuerst, jedoch ohne das Ergebnis, erbrachte im Imputationsmodell die besten Ergebnisse in Bezug auf die durchschnittliche Verzerrung (absolute Differenz zwischen dem geschätzten und dem tatsächlichen Behandlungseffekt) erzielt. Generell ist es ratsam, das Ergebnis in das Imputationsmodell einzubeziehen (siehe hier ).

Es scheint also, dass Ihre Methode 2 der richtige Weg ist.

Robert Long
quelle
1
Ich verstehe Methode Nr. 2, bin aber nicht in der Lage, sie in R zu implementieren. Hat jemand Referenzen, auf die ich verweisen kann?
Sam
2
Der R-Code für beide Methoden ist in der Vignette für das cobaltPaket mit dem Titel "Verwenden von Cobalt mit komplizierten Daten" enthalten. Sie können hier darauf zugreifen: CRAN.R-project.org/package=cobalt
Noah
13

Es könnte einen Konflikt zwischen zwei Paradigmen geben. Multiple Imputation ist eine stark modellbasierte Bayes'sche Lösung: Das Konzept der korrekten Imputation besagt im Wesentlichen, dass Sie aus der wohldefinierten posterioren Verteilung der Daten eine Stichprobe ziehen müssen, andernfalls sind Sie geschraubt. Der Propensity-Score-Abgleich ist hingegen ein semiparametrisches Verfahren: Wenn Sie Ihren Propensity-Score berechnet haben (unabhängig davon, wie Sie eine Schätzung der Kerneldichte hätten verwenden können, nicht unbedingt ein Logit-Modell), können Sie den Rest erledigen Indem Sie einfach die Unterschiede zwischen den behandelten und den nicht behandelten Beobachtungen mit dem gleichen Neigungswert messen, der jetzt nicht mehr parametrisch ist, da es kein Modell mehr gibt, das andere Kovariaten kontrolliert. Ich ziehe anAbadie und Imbens (2008) diskutierten, dass es unmöglich ist, die Standardfehler in einigen Übereinstimmungssituationen richtig zu machen. Ich würde den glatteren Ansätzen wie der Gewichtung durch die umgekehrte Neigung mehr Vertrauen schenken. Meine Lieblingsreferenz dazu ist "Mostly Harmless Econometrics" mit dem Untertitel "An Empiricist Companion" und richtet sich an Ökonomen, aber ich denke, dieses Buch sollte eine Pflichtlektüre für andere Sozialwissenschaftler, die meisten Biostatistiker und auch Nicht-Biostatistiker sein dass sie wissen, wie andere Disziplinen die Datenanalyse angehen.

In jedem Fall entspricht die Verwendung von nur einer von 15 simulierten vollständigen Datenzeilen pro Beobachtung einer einzelnen Imputation. Infolgedessen verlieren Sie die Effizienz im Vergleich zu allen 15 abgeschlossenen Datensätzen und können die Standardfehler nicht richtig einschätzen. Sieht für mich aus jedem Blickwinkel nach einem mangelhaften Verfahren aus.

Natürlich gehen wir gerne von der Annahme aus, dass sowohl das Multiple-Imputation-Modell als auch das Propensity-Modell in dem Sinne korrekt sind, dass alle richtigen Variablen in allen richtigen funktionalen Formen vorliegen. Es gibt kaum eine Möglichkeit, dies zu überprüfen (obwohl ich gerne etwas anderes über diagnostische Maßnahmen für beide Methoden erfahren würde).

StasK
quelle
(+1) Insbesondere weil mir die Diskontinuitäten, die durch die wörtliche Implementierung des Matchings eingeführt wurden, nicht gut tun (finde das Steuerelement mit dem bestmöglichen Wert der Neigungsbewertung und ignoriere den Rest) . Die Neigungsbewertung hat mich sowieso immer als ziemlich grobe Prozedur empfunden.
Kardinal
@ Kardinal, siehe Update.
StasK
Ich habe tatsächlich mehr Kritik an IPTW gesehen als an der Übereinstimmung mit anderen Methoden (ich muss nachlesen). Siehe Gewichtung von Regressionen nach Neigungswerten ( Freedman & Berk, 2008 ), und für ein angewendetes Beispiel siehe Bjerk, 2009 . Ich bin nicht ganz sicher, warum Sie Harmless Econometrics als Antwort hier empfehlen , aber es ist eine gute Empfehlung für alle, die sich für Beobachtungsstudien interessieren.
Andy W
@Andy, das Stück von Freedman & Berk scheint mit einer viel einfacheren Situation umzugehen, in der Sie alles in einer logistischen Regression modellieren können. Ich verstehe, dass Methoden wie PSM in sehr viel chaotischeren Situationen angewendet werden, wenn Sie viel mehr Kovariaten haben und Sie dem Modell nicht gut genug vertrauen, um davon auszugehen, dass es richtig spezifiziert ist. Sie bemerkten, dass die Situation für die Gewichtung günstig war, aber ich denke, dass es für das Modell im Vergleich zu anderen möglichen Methoden günstig war.
StasK
2
Weil Ihre Daten nicht enthalten sind und der große Maximum-Likelihood-Satz über die Gleichheit von inversem Hessischen und äußerem Produkt des Gradienten nicht mehr gültig ist und keiner von beiden eine konsistente Schätzung der Varianzen darstellt. Man muss den Sandwich-Varianzschätzer, auch bekannt als Linearisierungsschätzer, in der Umfragestatistik und als White-Robust-Schätzer in der Ökonometrie verwenden.
StasK
10

Ich kann nicht wirklich mit den theoretischen Aspekten der Frage sprechen, aber ich gebe meine Erfahrung mit PS / IPTW-Modellen und multipler Imputation.

  1. Ich habe noch nie von jemandem gehört, der mehrfach unterstellte Datensätze und zufällige Stichproben verwendet, um einen einzelnen Datensatz zu erstellen. Das bedeutet nicht unbedingt, dass es falsch ist, aber es ist ein seltsamer Ansatz. Die Datenmenge ist auch nicht groß genug, um kreativ zu sein, um 3-5 Modelle ausführen zu können, anstatt nur eines, um Zeit und Rechenaufwand zu sparen.
  2. Rubins Regel und die Pooling-Methode sind ein ziemlich allgemeines Werkzeug. Angesichts der Tatsache, dass das gepoolte, mehrfach unterstellte Ergebnis nur anhand der Varianz und der Schätzungen berechnet werden kann, kann ich nicht erkennen, dass es nicht für Ihr Projekt verwendet werden kann - Erstellen der unterstellten Daten, Ausführen der Analyse für jeden Satz und anschließendes Pooling. Es ist, was ich getan habe, es ist, was ich gesehen habe, und wenn Sie nicht eine spezifische Rechtfertigung haben, es nicht zu tun, kann ich nicht wirklich einen Grund sehen, mit etwas Exotischerem zu gehen - besonders wenn Sie nicht verstehen, was ist weiter mit der Methode.
Fomite
quelle
+1 Diese Frage ist schwer zu beantworten, da es sich anscheinend um ein hochspezialisiertes Papier handelt. Zusätzlich zu der Behauptung, das Kopfgeld für eine ähnliche Frage zu verlieren, fügte das OP eine Frage hinzu, in der nach Lösungen gebeten wurde, die auf Meta migriert wurden. Ich habe in meiner Antwort dort ähnliche Kommentare zu Ihrer abgegeben. Ich bin besonders skeptisch, was die Stichprobe aus dem mehrfach unterstellten Datensatz angeht.
Michael R. Chernick
Vielen Dank ! Haben Sie Referenzen für die Methode 2?
Joe King
@ JoeKing Traurigerweise nicht von oben auf meinen Kopf.
Fomite