Als «data-imputation» getaggte Fragen

Bezieht sich auf eine allgemeine Klasse von Methoden, mit denen fehlende Daten "ausgefüllt" werden. Die dafür verwendeten Methoden beziehen sich normalerweise auf die Interpolation (http://en.wikipedia.org/wiki/Interpolation) und erfordern Annahmen darüber, warum die Daten fehlen (z. B. "zufällig fehlen").

77
Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse

Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45,...

26
R Caret und NAs

Ich bevorzuge Caret wegen seiner Parametertuning-Fähigkeit und seiner einheitlichen Benutzeroberfläche, aber ich habe festgestellt, dass immer vollständige Datensätze (dh ohne NAs) erforderlich sind, auch wenn das angewendete "nackte" Modell NAs zulässt. Das ist sehr lästig, insofern sollte man...

23
Anrechnung fehlender Werte für PCA

Ich habe die prcomp()Funktion verwendet, um eine PCA (Principal Component Analysis) in R durchzuführen. Es gibt jedoch einen Fehler in dieser Funktion, sodass der na.actionParameter nicht funktioniert. Ich bat um Hilfe beim Stackoverflow . dort boten zwei benutzer zwei verschiedene möglichkeiten,...

14
KNN Imputation R-Pakete

Ich suche ein KNN-Anrechnungspaket. Ich habe mir das Imputationspaket angesehen ( http://cran.r-project.org/web/packages/imputation/imputation.pdf) ) angesehen, aber aus irgendeinem Grund scheint die KNN-Impute-Funktion (auch wenn dem Beispiel aus der Beschreibung folge) nur zu funktionieren...

12
Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?

Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

9
Imputation einer zensierten Variablen

Ich habe einen medizinischen Datensatz mit ca. 200 Variablen. Eine der Variablen ist ein Bio-Marker (Konzentration eines bestimmten Enzyms). Die Verteilung ist recht schief und das Problem ist, dass Werte über einem bestimmten Level auf diesem Level zensiert / abgeschnitten werden. Während der...