Verwendung eingeschränkter kubischer Splines mit dem Imputationspaket für R-Mäuse

8

Ich frage mich, wie eingeschränkte kubische Splines (wie im Effektivwertpaket) in die Imputationsmodelle innerhalb des Imputationspakets für R-Mäuse integriert werden können.

Kontext : Ich mache biomedizinische Forschung und habe Zugang zu einem Datensatz, der aus Patienteneigenschaften und Daten über das Fortschreiten der Krankheit des Patienten besteht, neben den Ergebnissen nach der medizinischen Versorgung (z. B. ein Jahr Überleben). Ziel ist es, ein Vorhersagemodell zu erstellen, das auf den Patienteneigenschaften und dem Krankheitsverlauf basiert, um das Auftreten bestimmter Ergebnisse vorherzusagen. Leider haben einige Patienten nicht alle Informationen zu allen Variablen. Aus diesem Grund habe ich beschlossen, mehrere Imputationstechniken zu verwenden, um (mehrfach) abzuschätzen, wie hoch diese fehlenden Werte sein würden.

Problem : Bei Verwendung der Mehrfachimputation gibt es diese "Regel", die als Kongenialität bezeichnet wird. Dies bedeutet, dass für die Imputation das für die endgültige Analyse verwendete statistische Modell (dh das Vorhersagemodell, das ich untersuchen möchte) ebenfalls in das Imputationsmodell aufgenommen werden muss (vorzugsweise mit zusätzlichen Informationen). Dies bedeutet auch, mögliche nichtlineare Assoziationen zu berücksichtigen. Da ich nicht weiß, ob bestimmte Prädiktoren nichtlineare Assoziationen mit anderen haben, möchte ich, dass die Imputationsmodelle eingeschränkte kubische Splines anpassen können. Ich verstehe jedoch nicht wirklich, wie man das bei Mäusen macht. Ich möchte daher Hilfe bei der Erstellung von Imputationsmodellen für rcs, die für Mäuse geeignet sind.


Nebenbemerkung an alle Moderatoren: Ich dachte, diese Frage sei für Crossvalidated geeignet, da Imputation und Splines spezifische „statistische“ Themen sind. Aufgrund des Fokus auf den Programmiercharakter dieser "How to" -Frage würde es mir jedoch nichts ausmachen, wenn die Frage migriert wird, wenn Sie der Meinung sind, dass sie an anderer Stelle besser geeignet ist. Nach diesem Zweifel habe ich diese Frage auch auf StackOverflow gepostet ( /programming/45674088/how-to-use-restricted-cubic-splines-with-the-r-mice-imputation-package ).

IWS
quelle
2
Wenn Sie keine hilfreichen Antworten erhalten, würde ich versuchen, eine E-Mail an den Paketbetreuer zu senden und dann hier eine Antwort auf Ihre Frage zu veröffentlichen. Ich glaube nicht, dass Sie viel zusätzliche Hilfe für R-Hilfe bekommen werden, da sie es möglicherweise zu statistisch finden.
Mdewey
1
@mdewey danke für den Tipp; Ich werde versuchen, zurückzukommen, wenn es etwas zu zeigen gibt
IWS
2
Ich fügte ein Kopfgeld hinzu; aber wie ich bemerkt habe, denke ich, dass dies unnötig begrenzt ist. Das heißt, eine größere Frage ist, wie mit fehlenden Daten mit Splines umgegangen werden soll. Vielleicht wäre das Störungspaket gut.
Peter Flom
1
@ PeterFlom Danke, dass du das Kopfgeld platziert hast. Ich gebe zu, dass die Frage nach bestimmten Funktionen innerhalb des Mäusepakets einschränkend ist. Ich werde in das Störungspaket schauen, um zu sehen, was ich daraus lernen kann. Wie Sie im Kopfgeldtext und in Ihrer Frage hier vorgeschlagen haben: stats.stackexchange.com/questions/301017/… , ist es von großem Interesse, eine allgemeine Antwort darauf zu haben, ob nichtlineare Assoziationen während der Imputation zur Behandlung fehlender Daten beitragen .
IWS

Antworten:

4

Sie haben Recht, dass das Imputationsmodell genauso umfangreich oder umfangreicher sein muss als das Ergebnismodell. Die Tatsache, dass die Imputation auf der Grundlage der vollständigen Maximum-Likelihood-Schätzung und der Imputation durch miceAnnahme der Linearität überall erfolgt, war ein Hauptgrund, warum ich die R- HmiscPaketfunktion geschrieben habe aregImpute, mit der Imputationsmodelle automatisch unter Verwendung von reichhaltigen additiven beschränkten kubischen Spline-Modellen erstellt werden. Daher wird für die Mehrfachzuschreibung keine Linearität angenommen. Der Standardansatz in aregImputeist Predictive Mean Matching, den ich im Allgemeinen gegenüber parametrischeren Ansätzen bevorzuge (Splines werden immer noch verwendet; PMM ist auf der linken Seite von Modellen weniger parametrisch).

Wie mice, aregImputeverwendet verketteten Gleichungen. Im Gegensatz micedazu werden Bootstrap-Draws anstelle von ungefähren (unter der Annahme einer multivariaten Normalität) Bayes'schen posterioren Draws verwendet.

Frank Harrell
quelle
1
Ich habe diese Antwort akzeptiert, weil @ frank-harrel die Behandlung möglicher nichtlinearer Assoziationen während der Imputation in der allgemeinen Einstellung angemessen behandelt. Für Interessierte arbeitete ich bereits an Imputationsmodellen (z. B. PMM, lineare Regression, logistische Regression), die mit dem Mäusepaket von R kompatibel sind und eingeschränkte kubische Splines zulassen. Ich werde diese der Vollständigkeit halber später hier als Antwort veröffentlichen, aber diese Modelle werden nicht getestet. Wenn Sie also ein ähnliches Problem haben, schauen Sie sich aregImpute an und verwenden Sie es.
IWS
1
@IWS das wäre ein netter Beitrag, und Sie können ihn weiter testen (einschließlich der Anzeige identischer Ergebnisse mit der miceVerwendung von Nullknoten (Linearität)), der ein netter Teil eines R-Pakets wäre. Während Sie dies tun, können Sie vergleichen miceund aregImputecodieren, um festzustellen, wo micees etwas langsam ist und was beschleunigt werden könnte.
Frank Harrell