Multiple Imputation für Ergebnisvariablen

17

Ich habe einen Datensatz über landwirtschaftliche Versuche. Meine Antwortvariable ist ein Antwortverhältnis: log (Behandlung / Kontrolle). Ich bin daran interessiert, was den Unterschied ausmacht, und führe daher RE-Meta-Regressionen durch (ungewichtet, da ziemlich klar ist, dass die Effektgröße nicht mit der Varianz der Schätzungen korreliert).

Jede Studie gibt den Getreideertrag, den Biomasseertrag oder beides an. Ich kann den Getreideertrag nicht aus Studien ableiten, die nur über den Biomasseertrag berichten, da nicht alle untersuchten Pflanzen für Getreide geeignet waren (Zuckerrohr ist zum Beispiel enthalten). Aber jede Pflanze, die Getreide produzierte, hatte auch Biomasse.

Für fehlende Kovariaten verwende ich die iterative Regressionszuschreibung (gemäß dem Lehrbuchkapitel von Andrew Gelman). Es scheint vernünftige Ergebnisse zu liefern, und der gesamte Prozess ist im Allgemeinen intuitiv. Grundsätzlich sage ich fehlende Werte voraus und benutze diese vorhergesagten Werte, um fehlende Werte vorherzusagen, und durchlaufe jede Variable, bis jede Variable ungefähr konvergiert (in der Verteilung).

Gibt es einen Grund, warum ich das gleiche Verfahren nicht verwenden kann, um fehlende Ergebnisdaten zu unterstellen? Ich kann wahrscheinlich ein relativ informatives Imputationsmodell für das Biomasse-Reaktionsverhältnis erstellen, wenn ich das Korn-Reaktionsverhältnis, den Erntetyp und andere Kovariaten, die ich habe, angegeben habe. Ich würde dann die Koeffizienten und VCVs mitteln und die MI-Korrektur gemäß der Standardpraxis hinzufügen.

Aber was messen diese Koeffizienten, wenn die Ergebnisse selbst unterstellt werden? Unterscheidet sich die Interpretation der Koeffizienten vom Standard-MI für Kovariaten? Wenn ich darüber nachdenke, kann ich mich nicht davon überzeugen, dass das nicht funktioniert, aber ich bin mir nicht sicher. Gedanken und Anregungen zum Lesen sind willkommen.

generic_user
quelle
Ich habe keine Antwort, aber eine Frage und zwei Anmerkungen: 1) Protokoll eines Verhältnisses ist natürlich der Unterschied der Protokolle. Ihr DV entspricht also log (Behandlung) - log (Kontrolle). 2) Welches Gelman-Lehrbuch haben Sie sich angesehen?
Peter Flom - Wiedereinsetzung von Monica
Ja, der DV entspricht log (Behandlung) -log (Kontrolle). Ich stütze die iterative Regressionsanrechnung auf das (nicht-technische) Kapitel über fehlende Daten, die Gelman online gestellt hat: stat.columbia.edu/~gelman/arm/missing.pdf
generic_user
Mir wurde gesagt, dass die Eingabe des Ergebnisses zu einem Monte-Carlo-Fehler führt. Versucht später, einen Link zu finden. Vergessen Sie nicht, dass Sie sicherstellen müssen, dass das Ergebnis in den Imputationsmodellen für die Kovariaten enthalten ist.
DL Dahly

Antworten:

19

Wie Sie vermutet haben, ist es gültig, mehrere Imputationen für die Ergebnismessung zu verwenden. Es gibt Fälle, in denen dies nützlich ist, aber es kann auch riskant sein. Ich betrachte die Situation, in der alle Kovariaten vollständig und das Ergebnis unvollständig sind.

Wenn das Imputationsmodell korrekt ist, erhalten wir gültige Rückschlüsse auf die Parameterschätzungen aus den imputierten Daten. Die Schlussfolgerungen, die nur aus den vollständigen Fällen erhalten werden, können tatsächlich falsch sein, wenn das Fehlen mit dem Ergebnis nach Konditionierung auf den Prädiktor, dh unter MNAR, zusammenhängt. Eine Imputation ist also nützlich, wenn wir wissen (oder vermuten), dass die Daten MNAR sind.

Unter MAR gibt es im Allgemeinen keine Vorteile, das Ergebnis zu unterstellen, und bei einer geringen Anzahl von Imputationen können die Ergebnisse aufgrund von Simulationsfehlern sogar etwas variabler sein. Es gibt eine wichtige Ausnahme. Wenn wir Zugriff auf eine vollständige Hilfsvariable haben, die nicht Teil des Modells ist und in hohem Maße mit dem Ergebnis korreliert, kann die Imputation erheblich effizienter sein als die vollständige Fallanalyse, was zu genaueren Schätzungen und kürzeren Konfidenzintervallen führt. Ein häufiges Szenario, in dem dies auftritt, ist, wenn wir eine kostengünstige Ergebnismessung für alle und eine teure Messung für eine Teilmenge haben.

In vielen Datensätzen treten fehlende Daten auch in den unabhängigen Variablen auf. In diesen Fällen müssen wir die Ergebnisvariable unterstellen, da ihre unterstellte Version zum Unterstellen der unabhängigen Variablen erforderlich ist.

Stef van Buuren
quelle
Danke, das stimmt mit meiner Intuition überein, aber könnten Sie vielleicht einen Link zu einer gut gemachten veröffentlichten Studie teilen, die abhängige Variablen unterstellt? Einer der Hauptgründe, warum ich die Ergebnismaße unterstellen möchte, ist die Erhöhung der Stichprobengröße (von ungefähr 250 auf ungefähr 450), um semiparametrische Tensorproduktinteraktionsterme in GAMs zu erleichtern, die sehr hohe df-Anforderungen haben (bevor sie erhalten werden) bestraft, Senkung edf). MAR ist in meinem Fall vernünftig.
generic_user
1
Für ANOVA ist es weit verbreitet, ausgewogene Designs zu erhalten. Siehe die Einführung von RJA Little, Regression mit fehlenden X, JASA 1992. Ich nehme an, Sie wissen, dass eine Erhöhung der Stichprobengröße auf diese Weise keine präziseren Schätzungen ermöglicht. Für den Fall von Hilfsvariablen lesen Sie den Abschnitt über Supereffizienz in DB Rubin, Multiple Imputation nach 18+ Jahren, JASA 1996.
Stef van Buuren
1
"Unter MAR gibt es im Allgemeinen keine Vorteile, um das Ergebnis zu unterstellen" - ich habe dies bereits erwähnt, aber ich habe keine Referenz dafür - können Sie bitte eine angeben?
Robert Long
Ich denke, Sie können Little 1992 tandfonline.com/doi/abs/10.1080/01621459.1992.10476282 dafür zitieren , aber beachten Sie bitte die Ausnahmen.
Stef van Buuren
1
@StefvanBuuren - zum größten Teil eine hilfreiche Antwort, aber ich verstehe, dass "wenn wir wissen (oder vermuten), dass die Daten MNAR sind", die Imputation unsere Probleme nicht mehr lösen kann als eine vollständige Fallanalyse. Dies scheint in die Kategorie "kein kostenloses Mittagessen" zu fallen.
Rolando2
2

Das Eingeben von Ergebnisdaten ist sehr verbreitet und führt zu einer korrekten Schlussfolgerung bei der Berücksichtigung des Zufallsfehlers.

Es hört sich so an, als ob Sie eine einzelne Imputation durchführen, indem Sie die fehlenden Werte unter einer vollständigen Fallanalyse mit einem bedingten Mittelwert unterstellen. Was Sie tun sollten, ist eine multiple Imputation, die bei kontinuierlichen Kovariaten den zufälligen Fehler berücksichtigt, den Sie beobachtet hätten, wenn Sie diese fehlenden Werte rückwirkend gemessen hätten. Der EM-Algorithmus arbeitet auf ähnliche Weise, indem er einen Durchschnitt über eine Reihe von möglichen beobachteten Ergebnissen bildet.

Eine einzelne Imputation liefert eine korrekte Schätzung der Modellparameter, wenn keine Beziehung zwischen Mittelwert und Varianz besteht, liefert jedoch Standardfehlerschätzungen, die gegen Null gerichtet sind und die Typ-I-Fehlerraten aufblasen. Dies liegt daran, dass Sie hinsichtlich des Ausmaßes des Fehlers, den Sie beobachtet hätten, wenn Sie diese Faktoren gemessen hätten, "optimistisch" waren.

Bei der Mehrfachimputation werden iterativ additive Fehler für die bedingte Mittelwertimputation generiert, sodass Sie durch 7 oder 8 simulierte Imputationen Modelle und ihre Fehler kombinieren können, um korrekte Schätzungen der Modellparameter und ihrer Standardfehler zu erhalten. Wenn Sie gemeinsam fehlende Kovariaten und Ergebnisse haben, gibt es in SAS, STATA und R eine Software, die als Mehrfachimputation über verkettete Gleichungen bezeichnet wird und bei der "vervollständigte" Datensätze (Datensätze mit als fest und nicht zufällig behandelten unterstellten Werten) als Modell generiert werden Aus jedem vollständigen Datensatz geschätzte Parameter sowie deren Parameterschätzungen und Standardfehler, die unter Verwendung einer korrekten mathematischen Formation kombiniert wurden (Details in der Veröffentlichung von Van Buuren).

Der geringfügige Unterschied zwischen dem Prozess in MI und dem von Ihnen beschriebenen Prozess besteht darin, dass Sie nicht berücksichtigt haben, dass die Schätzung der bedingten Verteilung des Ergebnisses unter Verwendung von unterstellten Daten davon abhängt, in welcher Reihenfolge Sie bestimmte Faktoren unterstellen. Sie sollten die bedingte Verteilung der fehlenden Kovariaten auf das Ergebnis in MI geschätzt haben, sonst erhalten Sie voreingenommene Parameterschätzungen.

AdamO
quelle
Vielen Dank. Zunächst einmal programmiere ich alles von Grund auf in R, ohne MICE oder MI zu verwenden. Zweitens rechne ich mit Zeichnungen einer (modellierten) Vorhersageverteilung, nicht nur mit bedingten Erwartungen. Ist es das, worüber Sie im zweiten Absatz sprechen? Wenn nicht, wäre ich für eine Klarstellung dankbar. Auf welches Royston-Papier beziehen Sie sich? Zum letzten Punkt - sagen Sie etwas Komplizierteres als "Sie sollten Ihre abhängige Variable in das Imputationsmodell einfügen"? Wenn ja, würde ich mich sehr über eine Klärung freuen.
generic_user
Zum Schluss - ich mache keine einfache Anrechnung. Ich passe 30 Modelle mit ausgefüllten Daten an und verwende die Formel V_b = W + (1 + 1 / m) B von Rubin.
generic_user
Royston-Papier wurde mit einem Hyperlink versehen. Eigentlich wollte ich den Van Buuren mit einem verknüpfen, der das Programm in R implementiert hat und Details zur Berechnung enthält: doc.utwente.nl/78938 MICE / MI ist ein Prozess. Wenn Sie auf der Grundlage von selbst entwickeltem Code unterstellen, sollten Sie die Details genauer erläutern. Bedingt bedeutet = vorhergesagte Werte, wenn das Modell korrekt ist (oder ungefähr eine notwendige Annahme). Es ist komplizierter als "Addieren des Ergebnisses", da Sie mehrere fehlende Muster unterstellen (mindestens 3, fehlende Kovariate / Ergebnis / gemeinsam fehlend).
AdamO
Wenn Sie den vorhergesagten Wert 30 Mal einzeln eingeben, sollten Sie 30 Mal dieselben Ergebnisse erzielen. Wie schätzen Sie den Fehler ein?
AdamO
ficht,ichmp