Mehrere Anrechnungs ist recht einfach , wenn Sie eine haben a - priori - lineares Modell , dass Sie schätzen möchten. Die Dinge scheinen jedoch etwas kniffliger zu sein, wenn Sie tatsächlich ein Modell auswählen möchten (z. B. finden Sie die "beste" Menge von Prädiktorvariablen aus einer größeren Menge von Kandidatenvariablen - ich denke speziell an LASSO und fraktionale Polynome mit R).
Eine Idee wäre, das Modell in die Originaldaten mit fehlenden Werten einzupassen und dieses Modell dann in MI-Datensätzen neu zu schätzen und Schätzungen wie gewohnt zu kombinieren. Dies scheint jedoch problematisch zu sein, da Sie Verzerrungen erwarten (oder warum überhaupt den MI?), Die dazu führen könnten, dass Sie von Anfang an ein "falsches" Modell auswählen.
Eine andere Idee wäre, den in jedem MI-Dataset verwendeten Modellauswahlprozess zu durchlaufen - aber wie würden Sie dann die Ergebnisse kombinieren, wenn sie unterschiedliche Variablensätze enthalten?
Ein Gedanke, den ich hatte, war es, einen Satz von MI-Datensätzen zu stapeln und als einen großen Datensatz zu analysieren, den Sie dann verwenden würden, um ein einzelnes "bestes" Modell anzupassen, und einen Zufallseffekt zu berücksichtigen, für den Sie wiederholte Messungen verwenden jede Beobachtung.
Hört sich das vernünftig an? Oder vielleicht unglaublich naiv? Alle Hinweise zu diesem Thema (Modellauswahl mit Mehrfachzuschreibung) wären sehr dankbar.
quelle
Antworten:
Es gibt viele Dinge, die Sie tun können, um Variablen aus mehrfach unterstellten Daten auszuwählen, aber nicht alle liefern angemessene Schätzungen. Siehe Wood et al. (2008) Stat Med für einen Vergleich verschiedener Möglichkeiten.
Ich habe das folgende zweistufige Verfahren in der Praxis für nützlich befunden.
Der Vorauswahlschritt 1 ist enthalten, um den Rechenaufwand zu verringern. Ein Codebeispiel für die zweistufige Methode in R using finden Sie unter http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (Abschnitt 6.4.2)
mice()
. In Stata können Sie Schritt 2 (für alle Variablen) mit ausführenmim:stepwise
.quelle
Es ist ganz einfach: Sie können Standard-MI-Kombinationsregeln anwenden. Die Auswirkungen von Variablen, die nicht in allen unterstellten Datensätzen unterstützt werden, sind jedoch weniger ausgeprägt. Wenn zum Beispiel eine Variable in einem bestimmten imputierten Datensatz nicht ausgewählt ist, ist ihre Schätzung (inkl. Varianz) Null und dies muss sich in den Schätzungen widerspiegeln, die bei der Verwendung mehrerer Imputationen verwendet werden. Sie können Bootstrapping in Betracht ziehen, um Konfidenzintervalle zu konstruieren, um die Unsicherheit bei der Modellauswahl zu berücksichtigen. Schauen Sie sich diese aktuelle Veröffentlichung an, in der alle Fragen behandelt werden: http://www.sciencedirect.com/science/article/pii/S016794731300073X
Ich würde pragmatische Ansätze wie die Auswahl einer Variablen vermeiden, wenn sie in m / 2-Datensätzen oder Ähnlichem ausgewählt ist, da der Rückschluss nicht klar und komplizierter ist, als es auf den ersten Blick aussieht.
quelle
Ich hatte das gleiche Problem.
Meine Wahl fiel auf das sogenannte "Multiple Imputation Lasso". Grundsätzlich werden alle unterstellten Datensätze miteinander kombiniert und das Konzept des Gruppen-Lassos übernommen: Jede Kandidatenvariable würde m Dummy-Variablen generieren . Jede Dummy-Variable entspricht einem unterstellten Datensatz.
Dann werden alle m Dummy-Variablen gruppiert. Sie würden entweder die m Dummy-Variablen einer Kandidatenvariablen in allen unterstellten Datensätzen verwerfen oder sie in allen unterstellten Datensätzen behalten.
Die Lasso-Regression passt also tatsächlich auf alle kalkulatorischen Datensätze zusammen.
Überprüfen Sie das Papier :
Chen, Q. & Wang, S. (2013). "Variable Auswahl für mehrfach unterstellte Daten mit Anwendung auf eine Dioxin-Expositionsstudie", Statistics in Medicine, 32: 3646-59.
Und ein entsprechendes R-Programm
quelle
Ich hatte ein ähnliches Problem - ich habe einen Datensatz, in dem ich von Anfang an wusste, dass ich alle Variablen einbeziehen wollte (ich interessierte mich mehr für die Koeffizienten als für die Vorhersage), aber ich wusste nicht a a priori welche Wechselwirkungen angegeben werden sollen.
Mein Ansatz bestand darin, eine Reihe von Kandidatenmodellen zu schreiben, mehrere Imputationen durchzuführen, die mehreren Modelle zu schätzen und einfach die AICs von jedem Modell zu speichern und zu mitteln. Die Modellspezifikation mit dem niedrigsten AIC-Durchschnitt wurde ausgewählt.
Ich habe darüber nachgedacht, eine Korrektur hinzuzufügen, bei der ich die Varianz zwischen den Imputationen bei AIC benachteilige. Nach dem Nachdenken schien dies jedoch sinnlos.
Der Ansatz erschien mir recht einfach, aber ich habe ihn selbst erfunden, und ich bin kein berühmter Statistiker. Bevor Sie es benutzen, möchten Sie vielleicht warten, bis die Leute mich korrigiert haben (was willkommen wäre!) Oder diese Antwort positiv bewerten.
quelle