Ich habe einen Datensatz über landwirtschaftliche Versuche. Meine Antwortvariable ist ein Antwortverhältnis: log (Behandlung / Kontrolle). Ich bin daran interessiert, was den Unterschied ausmacht, und führe daher RE-Meta-Regressionen durch (ungewichtet, da ziemlich klar ist, dass die Effektgröße nicht mit der Varianz der Schätzungen korreliert).
Jede Studie gibt den Getreideertrag, den Biomasseertrag oder beides an. Ich kann den Getreideertrag nicht aus Studien ableiten, die nur über den Biomasseertrag berichten, da nicht alle untersuchten Pflanzen für Getreide geeignet waren (Zuckerrohr ist zum Beispiel enthalten). Aber jede Pflanze, die Getreide produzierte, hatte auch Biomasse.
Für fehlende Kovariaten verwende ich die iterative Regressionszuschreibung (gemäß dem Lehrbuchkapitel von Andrew Gelman). Es scheint vernünftige Ergebnisse zu liefern, und der gesamte Prozess ist im Allgemeinen intuitiv. Grundsätzlich sage ich fehlende Werte voraus und benutze diese vorhergesagten Werte, um fehlende Werte vorherzusagen, und durchlaufe jede Variable, bis jede Variable ungefähr konvergiert (in der Verteilung).
Gibt es einen Grund, warum ich das gleiche Verfahren nicht verwenden kann, um fehlende Ergebnisdaten zu unterstellen? Ich kann wahrscheinlich ein relativ informatives Imputationsmodell für das Biomasse-Reaktionsverhältnis erstellen, wenn ich das Korn-Reaktionsverhältnis, den Erntetyp und andere Kovariaten, die ich habe, angegeben habe. Ich würde dann die Koeffizienten und VCVs mitteln und die MI-Korrektur gemäß der Standardpraxis hinzufügen.
Aber was messen diese Koeffizienten, wenn die Ergebnisse selbst unterstellt werden? Unterscheidet sich die Interpretation der Koeffizienten vom Standard-MI für Kovariaten? Wenn ich darüber nachdenke, kann ich mich nicht davon überzeugen, dass das nicht funktioniert, aber ich bin mir nicht sicher. Gedanken und Anregungen zum Lesen sind willkommen.
quelle
Antworten:
Wie Sie vermutet haben, ist es gültig, mehrere Imputationen für die Ergebnismessung zu verwenden. Es gibt Fälle, in denen dies nützlich ist, aber es kann auch riskant sein. Ich betrachte die Situation, in der alle Kovariaten vollständig und das Ergebnis unvollständig sind.
Wenn das Imputationsmodell korrekt ist, erhalten wir gültige Rückschlüsse auf die Parameterschätzungen aus den imputierten Daten. Die Schlussfolgerungen, die nur aus den vollständigen Fällen erhalten werden, können tatsächlich falsch sein, wenn das Fehlen mit dem Ergebnis nach Konditionierung auf den Prädiktor, dh unter MNAR, zusammenhängt. Eine Imputation ist also nützlich, wenn wir wissen (oder vermuten), dass die Daten MNAR sind.
Unter MAR gibt es im Allgemeinen keine Vorteile, das Ergebnis zu unterstellen, und bei einer geringen Anzahl von Imputationen können die Ergebnisse aufgrund von Simulationsfehlern sogar etwas variabler sein. Es gibt eine wichtige Ausnahme. Wenn wir Zugriff auf eine vollständige Hilfsvariable haben, die nicht Teil des Modells ist und in hohem Maße mit dem Ergebnis korreliert, kann die Imputation erheblich effizienter sein als die vollständige Fallanalyse, was zu genaueren Schätzungen und kürzeren Konfidenzintervallen führt. Ein häufiges Szenario, in dem dies auftritt, ist, wenn wir eine kostengünstige Ergebnismessung für alle und eine teure Messung für eine Teilmenge haben.
In vielen Datensätzen treten fehlende Daten auch in den unabhängigen Variablen auf. In diesen Fällen müssen wir die Ergebnisvariable unterstellen, da ihre unterstellte Version zum Unterstellen der unabhängigen Variablen erforderlich ist.
quelle
Das Eingeben von Ergebnisdaten ist sehr verbreitet und führt zu einer korrekten Schlussfolgerung bei der Berücksichtigung des Zufallsfehlers.
Es hört sich so an, als ob Sie eine einzelne Imputation durchführen, indem Sie die fehlenden Werte unter einer vollständigen Fallanalyse mit einem bedingten Mittelwert unterstellen. Was Sie tun sollten, ist eine multiple Imputation, die bei kontinuierlichen Kovariaten den zufälligen Fehler berücksichtigt, den Sie beobachtet hätten, wenn Sie diese fehlenden Werte rückwirkend gemessen hätten. Der EM-Algorithmus arbeitet auf ähnliche Weise, indem er einen Durchschnitt über eine Reihe von möglichen beobachteten Ergebnissen bildet.
Eine einzelne Imputation liefert eine korrekte Schätzung der Modellparameter, wenn keine Beziehung zwischen Mittelwert und Varianz besteht, liefert jedoch Standardfehlerschätzungen, die gegen Null gerichtet sind und die Typ-I-Fehlerraten aufblasen. Dies liegt daran, dass Sie hinsichtlich des Ausmaßes des Fehlers, den Sie beobachtet hätten, wenn Sie diese Faktoren gemessen hätten, "optimistisch" waren.
Bei der Mehrfachimputation werden iterativ additive Fehler für die bedingte Mittelwertimputation generiert, sodass Sie durch 7 oder 8 simulierte Imputationen Modelle und ihre Fehler kombinieren können, um korrekte Schätzungen der Modellparameter und ihrer Standardfehler zu erhalten. Wenn Sie gemeinsam fehlende Kovariaten und Ergebnisse haben, gibt es in SAS, STATA und R eine Software, die als Mehrfachimputation über verkettete Gleichungen bezeichnet wird und bei der "vervollständigte" Datensätze (Datensätze mit als fest und nicht zufällig behandelten unterstellten Werten) als Modell generiert werden Aus jedem vollständigen Datensatz geschätzte Parameter sowie deren Parameterschätzungen und Standardfehler, die unter Verwendung einer korrekten mathematischen Formation kombiniert wurden (Details in der Veröffentlichung von Van Buuren).
Der geringfügige Unterschied zwischen dem Prozess in MI und dem von Ihnen beschriebenen Prozess besteht darin, dass Sie nicht berücksichtigt haben, dass die Schätzung der bedingten Verteilung des Ergebnisses unter Verwendung von unterstellten Daten davon abhängt, in welcher Reihenfolge Sie bestimmte Faktoren unterstellen. Sie sollten die bedingte Verteilung der fehlenden Kovariaten auf das Ergebnis in MI geschätzt haben, sonst erhalten Sie voreingenommene Parameterschätzungen.
quelle