Multiple Imputation und Modellauswahl

21

Mehrere Anrechnungs ist recht einfach , wenn Sie eine haben a - priori - lineares Modell , dass Sie schätzen möchten. Die Dinge scheinen jedoch etwas kniffliger zu sein, wenn Sie tatsächlich ein Modell auswählen möchten (z. B. finden Sie die "beste" Menge von Prädiktorvariablen aus einer größeren Menge von Kandidatenvariablen - ich denke speziell an LASSO und fraktionale Polynome mit R).

Eine Idee wäre, das Modell in die Originaldaten mit fehlenden Werten einzupassen und dieses Modell dann in MI-Datensätzen neu zu schätzen und Schätzungen wie gewohnt zu kombinieren. Dies scheint jedoch problematisch zu sein, da Sie Verzerrungen erwarten (oder warum überhaupt den MI?), Die dazu führen könnten, dass Sie von Anfang an ein "falsches" Modell auswählen.

Eine andere Idee wäre, den in jedem MI-Dataset verwendeten Modellauswahlprozess zu durchlaufen - aber wie würden Sie dann die Ergebnisse kombinieren, wenn sie unterschiedliche Variablensätze enthalten?

Ein Gedanke, den ich hatte, war es, einen Satz von MI-Datensätzen zu stapeln und als einen großen Datensatz zu analysieren, den Sie dann verwenden würden, um ein einzelnes "bestes" Modell anzupassen, und einen Zufallseffekt zu berücksichtigen, für den Sie wiederholte Messungen verwenden jede Beobachtung.

Hört sich das vernünftig an? Oder vielleicht unglaublich naiv? Alle Hinweise zu diesem Thema (Modellauswahl mit Mehrfachzuschreibung) wären sehr dankbar.

DL Dahly
quelle
2
Bitte bearbeiten Sie diesen Beitrag, um "Modellanpassung" in "Modellauswahl" zu ändern. Es wäre auch hilfreich zu besprechen, welche Methode Sie verwenden. Wenn zum Beispiel eine schrittweise Modellauswahl basierend auf p-Werten verwendet wird, ist das Stapeln von kalkulierten Daten absolut NICHT zulässig. Sie können Bootstrap-Resamples Ihrer Daten zeichnen, einschließlich fehlender Daten, MI und den nachfolgenden Modellauswahlprozess anwenden und einen genauen "p-Wert" für das ausgewählte Modell berechnen.
AdamO
Warum verfehlt Ihrer Meinung nach diese Methode in Ihrem zweiten Absatz den Punkt der Mehrfachzuschreibung? Welche Software verwenden Sie?
Peter Flom - Reinstate Monica

Antworten:

10

Es gibt viele Dinge, die Sie tun können, um Variablen aus mehrfach unterstellten Daten auszuwählen, aber nicht alle liefern angemessene Schätzungen. Siehe Wood et al. (2008) Stat Med für einen Vergleich verschiedener Möglichkeiten.

Ich habe das folgende zweistufige Verfahren in der Praxis für nützlich befunden.

  1. Wenden Sie Ihre bevorzugte Variablenauswahlmethode unabhängig auf jeden der itgetierten Datensätze an. Sie werden mit m verschiedenen Modellen enden . Zählen Sie für jede Variable, wie oft sie im Modell angezeigt wird. Wählen Sie die Variablen aus, die in mindestens der Hälfte der m Modelle vorkommen.mmm
  2. Verwenden Sie den p-Wert der Wald-Statistik oder des Likelihood-Ratio-Tests, der aus den multiplikationsimputierten Datensätzen berechnet wurde, als Kriterium für die weitere schrittweise Modellauswahl.m

Der Vorauswahlschritt 1 ist enthalten, um den Rechenaufwand zu verringern. Ein Codebeispiel für die zweistufige Methode in R using finden Sie unter http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (Abschnitt 6.4.2) mice(). In Stata können Sie Schritt 2 (für alle Variablen) mit ausführen mim:stepwise.

Stef van Buuren
quelle
Stef, bitte füge den Link zur Veröffentlichung von Stat Med hinzu. Ich habe auch versucht, Ihre Antwort ein wenig zu verschönern.
StasK
1
Die vorgeschlagene Routine ist möglicherweise nur dann sinnvoll, wenn Sie aus einem vorgegebenen Satz von Regressoren auswählen. Aber wenn ich mich für einen quadratischen Trend, B-Splines mit 5 und 9 Knoten und möglicherweise für einen WARENKORB entscheide, bin ich mir nicht sicher, wie ich diesen Vorschlag anwenden soll.
StasK
Das Verfahren geht davon aus, dass das Imputationsmodell korrekt ist. Insbesondere muss die Imputationsmethode alle Merkmale in den Daten, an denen Sie später interessiert sein könnten, angemessen erfassen. Wenn Sie also quadratische Terme oder B-Splines in Ihre Gesamtdatenanalyse einbeziehen möchten, sollte das Imputationsmodell so eingerichtet werden, dass diese Funktionen in den imputierten Daten erhalten bleiben (Hinweis: Dies ist möglicherweise schwierig zu erreichen , aber das ist ein Thema für sich). Angesichts der Tatsache, dass das Imputationsmodell korrekt angegeben ist, würde ich sagen, dass das zweistufige Auswahlverfahren angewendet wird.
Stef van Buuren
Nun, dann muss das Imputationsmodell im Grunde das reichhaltigste Modell sein. Ich habe Situationen erlebt, in denen das nicht ganz funktioniert, wie perfekte Vorhersagen in überparametrisierten Logistikmodellen.
StasK
Einverstanden. Sie müssen unter dem reichsten möglichen Modell unterstellen. Definieren Sie also zunächst die komplexesten Analysen, die Sie durchführen möchten, und passen Sie das Imputationsmodell daran an. Dies ist in der Praxis möglicherweise schwierig und wird mit zunehmender Komplexität des vollständigen Datenmodells schwieriger. Es gibt kein kostenloses Mittagessen. Die perfekte Vorhersage in der logistischen Regression wurde auf verschiedene Weise gelöst und muss keinen großen Stolperstein darstellen.
Stef van Buuren
4

Es ist ganz einfach: Sie können Standard-MI-Kombinationsregeln anwenden. Die Auswirkungen von Variablen, die nicht in allen unterstellten Datensätzen unterstützt werden, sind jedoch weniger ausgeprägt. Wenn zum Beispiel eine Variable in einem bestimmten imputierten Datensatz nicht ausgewählt ist, ist ihre Schätzung (inkl. Varianz) Null und dies muss sich in den Schätzungen widerspiegeln, die bei der Verwendung mehrerer Imputationen verwendet werden. Sie können Bootstrapping in Betracht ziehen, um Konfidenzintervalle zu konstruieren, um die Unsicherheit bei der Modellauswahl zu berücksichtigen. Schauen Sie sich diese aktuelle Veröffentlichung an, in der alle Fragen behandelt werden: http://www.sciencedirect.com/science/article/pii/S016794731300073X

Ich würde pragmatische Ansätze wie die Auswahl einer Variablen vermeiden, wenn sie in m / 2-Datensätzen oder Ähnlichem ausgewählt ist, da der Rückschluss nicht klar und komplizierter ist, als es auf den ersten Blick aussieht.

Michael
quelle
3

Ich hatte das gleiche Problem.

Meine Wahl fiel auf das sogenannte "Multiple Imputation Lasso". Grundsätzlich werden alle unterstellten Datensätze miteinander kombiniert und das Konzept des Gruppen-Lassos übernommen: Jede Kandidatenvariable würde m Dummy-Variablen generieren . Jede Dummy-Variable entspricht einem unterstellten Datensatz.

Dann werden alle m Dummy-Variablen gruppiert. Sie würden entweder die m Dummy-Variablen einer Kandidatenvariablen in allen unterstellten Datensätzen verwerfen oder sie in allen unterstellten Datensätzen behalten.

Die Lasso-Regression passt also tatsächlich auf alle kalkulatorischen Datensätze zusammen.

Überprüfen Sie das Papier :

Chen, Q. & Wang, S. (2013). "Variable Auswahl für mehrfach unterstellte Daten mit Anwendung auf eine Dioxin-Expositionsstudie", Statistics in Medicine, 32: 3646-59.

Und ein entsprechendes R-Programm

Fan Wang
quelle
Ich glaube, ich habe dir vor ein paar Jahren eine E-Mail darüber geschickt :)
DL Dahly
1

Ich hatte ein ähnliches Problem - ich habe einen Datensatz, in dem ich von Anfang an wusste, dass ich alle Variablen einbeziehen wollte (ich interessierte mich mehr für die Koeffizienten als für die Vorhersage), aber ich wusste nicht a a priori welche Wechselwirkungen angegeben werden sollen.

Mein Ansatz bestand darin, eine Reihe von Kandidatenmodellen zu schreiben, mehrere Imputationen durchzuführen, die mehreren Modelle zu schätzen und einfach die AICs von jedem Modell zu speichern und zu mitteln. Die Modellspezifikation mit dem niedrigsten AIC-Durchschnitt wurde ausgewählt.

Ich habe darüber nachgedacht, eine Korrektur hinzuzufügen, bei der ich die Varianz zwischen den Imputationen bei AIC benachteilige. Nach dem Nachdenken schien dies jedoch sinnlos.

Der Ansatz erschien mir recht einfach, aber ich habe ihn selbst erfunden, und ich bin kein berühmter Statistiker. Bevor Sie es benutzen, möchten Sie vielleicht warten, bis die Leute mich korrigiert haben (was willkommen wäre!) Oder diese Antwort positiv bewerten.

generic_user
quelle
Danke für die Antwort. Leider interessiert mich die Verwendung automatisierterer / explorativerer Methoden zur Modellauswahl, die sich nicht dazu eignen, zunächst eine vernünftige Gruppe von Kandidatenmodellen auszuwählen.
DL Dahly