Ich habe einen medizinischen Datensatz mit ca. 200 Variablen. Eine der Variablen ist ein Bio-Marker (Konzentration eines bestimmten Enzyms). Die Verteilung ist recht schief und das Problem ist, dass Werte über einem bestimmten Level auf diesem Level zensiert / abgeschnitten werden. Während der Mittelwert der Variablen bei 10 liegt, werden alle Werte größer als 50 als 50 aufgezeichnet.
Ich möchte fortlaufende Werte für diese zensierten Werte unterstellen. Ich verwende derzeit mehrere Imputationen mit dem Mäusepaket in R, obwohl mir andere Systeme zur Verfügung stehen und ich offen für andere Ansätze bin. Ein Gedanke, den ich hatte, war, all diese zensierten Werte als fehlend neu zu kodieren und dann die Imputationen auszuführen. Wenn einer der ursprünglich zensierten unterstellten Werte unter dem Grenzwert liegt, wird er als Grenzwert zugewiesen.
Ich würde gerne Meinungen dazu und / oder bessere Methoden zum Umgang damit erfahren.
quelle
Antworten:
Jede Imputationsmethode, einschließlich Mehrfachimputation, ist ein Schuss in die Dunkelheit, wenn Sie nicht berücksichtigen können, wie die Daten über 50 verteilt sind. Da Sie 200 Variablen haben, korreliert eine davon mit dem Biomarker? Wenn Sie eine Regression für den Biomarker als Funktion der Kovariaten anpassen könnten, könnten Sie dieses Modell verwenden, um die Werte für die abgeschnittenen vorherzusagen. Sie können einen Fehler auf die Vorhersage anwenden, der auf der Restvarianz im Modell basiert, um auf diese Weise mehrere Imputationen zu generieren. Es wäre vernünftiger. Dies setzt natürlich voraus, dass Sie ein gültiges Modell finden und dass die Residuen einen Mittelwert von Null und eine konstante Varianz haben. Sie würden nur dann nicht abgeschnittene Biomarkerwerte anpassen, um das Modell zu erstellen.
quelle