Als «data-imputation» getaggte Fragen

77

Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse

Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45,...

r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

26

R Caret und NAs

Ich bevorzuge Caret wegen seiner Parametertuning-Fähigkeit und seiner einheitlichen Benutzeroberfläche, aber ich habe festgestellt, dass immer vollständige Datensätze (dh ohne NAs) erforderlich sind, auch wenn das angewendete "nackte" Modell NAs zulässt. Das ist sehr lästig, insofern sollte man...

r missing-data data-imputation caret

23

Anrechnung fehlender Werte für PCA

Ich habe die prcomp()Funktion verwendet, um eine PCA (Principal Component Analysis) in R durchzuführen. Es gibt jedoch einen Fehler in dieser Funktion, sodass der na.actionParameter nicht funktioniert. Ich bat um Hilfe beim Stackoverflow . dort boten zwei benutzer zwei verschiedene möglichkeiten,...

r pca missing-data data-imputation

20

Kombinieren von Konfidenzintervallen für eine Varianzkomponente eines Mixed-Effects-Modells bei Verwendung mehrerer Imputationen

Die Logik der Multiplen Imputation (MI) besteht darin, die fehlenden Werte nicht nur einmal, sondern mehrmals (typischerweise M = 5) zu unterstellen, was zu M vollständigen Datensätzen führt. Die M vervollständigten Datensätze werden dann mit Verfahren für vollständige Daten analysiert, bei denen...

modeling confidence-interval mixed-model data-imputation

16

Eine sechste Antwortoption („Ich weiß nicht“) wurde zu einer 5-Punkte-Likert-Skala hinzugefügt. Gehen die Daten verloren?

Ich brauche ein bisschen Hilfe, um die Daten aus einem Fragebogen zu retten. Einer meiner Kollegen wandte einen Fragebogen an, aber anstatt die ursprüngliche 5-Punkte-Likert-Skala zu verwenden (stimme überhaupt nicht zu), fügte er versehentlich eine 6. Antwort in die Skala ein. Und um die Sache...

likert data-imputation

15

Wie fülle ich fehlende Daten in Zeitreihen ein?

Ich habe eine große Anzahl von Verschmutzungsdaten, die im Laufe von 2 Jahren alle 10 Minuten aufgezeichnet wurden, es gibt jedoch eine Reihe von Lücken in den Daten (einschließlich einiger, die sich über mehrere Wochen erstrecken). Die Daten scheinen ziemlich saisonal zu sein und es gibt...

time-series missing-data data-imputation

15

Methoden, um das Problem fehlender Daten beim maschinellen Lernen zu umgehen

Nahezu jede Datenbank, die wir mithilfe von Algorithmen für maschinelles Lernen vorhersagen möchten, findet für einige der Merkmale fehlende Werte. Es gibt verschiedene Ansätze, um dieses Problem zu lösen und Zeilen mit fehlenden Werten auszuschließen, bis sie mit den Mittelwerten der Merkmale...

machine-learning scikit-learn data-imputation

15

Pooling von Kalibrierungsplots nach mehrfacher Imputation

Ich möchte Ratschläge zum Zusammenfassen der Kalibrierungsdiagramme / -statistiken nach mehrfacher Imputation. Bei der Entwicklung statistischer Modelle zur Vorhersage eines zukünftigen Ereignisses (z. B. Verwendung von Daten aus Krankenhausakten zur Vorhersage des Überlebens oder von Ereignissen...

data-visualization data-imputation multiple-imputation pooling calibration

14

KNN Imputation R-Pakete

Ich suche ein KNN-Anrechnungspaket. Ich habe mir das Imputationspaket angesehen ( http://cran.r-project.org/web/packages/imputation/imputation.pdf) ) angesehen, aber aus irgendeinem Grund scheint die KNN-Impute-Funktion (auch wenn dem Beispiel aus der Beschreibung folge) nur zu funktionieren...

r k-nearest-neighbour data-imputation

13

Verwenden von Nachbarinformationen bei der Eingabe von Daten oder Finden von Off-Daten (in R)

Ich habe einen Datensatz mit der Annahme, dass die nächsten Nachbarn die besten Prädiktoren sind. Nur ein perfektes Beispiel für einen Zwei-Wege-Gradienten, der Angenommen, wir haben einen Fall, in dem nur wenige Werte fehlen, und wir können dies auf der Grundlage von Nachbarn und Trends leicht...

r prediction outliers data-imputation multiple-imputation

12

Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?

Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

11

Verwenden von Kalman-Filtern, um fehlende Werte in Zeitreihen zu unterstellen

Ich bin daran interessiert, wie Kalman-Filter verwendet werden können, um fehlende Werte in Zeitreihendaten zu unterstellen. Ist es auch anwendbar, wenn einige aufeinanderfolgende Zeitpunkte fehlen? Ich kann zu diesem Thema nicht viel finden. Alle Erklärungen, Kommentare und Links sind willkommen...

data-imputation kalman-filter

11

XGBoost kann fehlende Daten in der Prognosephase verarbeiten

Kürzlich habe ich den XGBoost-Algorithmus überprüft und festgestellt, dass dieser Algorithmus fehlende Daten (ohne Imputation) in der Trainingsphase verarbeiten kann. Ich habe mich gefragt, ob XGboost fehlende Daten verarbeiten kann (ohne dass eine Imputation erforderlich ist), wenn sie zur...

machine-learning missing-data data-imputation xgboost

10

Was ist der Vorteil der Imputation gegenüber der Erstellung mehrerer Modelle in der Regression?

Ich frage mich, ob jemand einen Einblick geben könnte, ob eine Warum-Imputation für fehlende Daten besser ist, als einfach verschiedene Modelle für Fälle mit fehlenden Daten zu erstellen. Besonders im Fall von [verallgemeinerten] linearen Modellen (ich kann vielleicht in nichtlinearen Fällen sehen,...

regression missing-data data-imputation

10

Wie gehe ich mit fehlenden Werten um, um Daten für die Merkmalsauswahl mit LASSO vorzubereiten?

Meine Situation: kleine Stichprobengröße: 116 binäre Ergebnisvariable lange Liste erklärender Variablen: 44 erklärende Variablen kamen nicht von oben; Ihre Wahl basierte auf der Literatur. Die meisten Fälle in der Stichprobe und die meisten Variablen haben fehlende Werte. Ansatz für die ausgewählte...

r spss lasso data-imputation

10

Kombinieren von zwei Zeitreihen durch Mitteln der Datenpunkte

Ich möchte die prognostizierten und zurückgesendeten (dh die vorhergesagten vergangenen Werte) eines Zeitreihendatensatzes zu einer Zeitreihe kombinieren, indem ich den mittleren quadratischen Vorhersagefehler minimiere. Angenommen, ich habe Zeitreihen von 2001 bis 2010 mit einer Lücke für das Jahr...

r time-series forecasting data-imputation

9

Imputation einer zensierten Variablen

Ich habe einen medizinischen Datensatz mit ca. 200 Variablen. Eine der Variablen ist ein Bio-Marker (Konzentration eines bestimmten Enzyms). Die Verteilung ist recht schief und das Problem ist, dass Werte über einem bestimmten Level auf diesem Level zensiert / abgeschnitten werden. Während der...

r epidemiology data-imputation censoring

9

Wie funktioniert die Imputationsfunktion der Mäuse?

Ich habe mich gefragt, ob jemand Erfahrung mit der Mäusefunktion hat, wie in Mäusen beschrieben: Multivariate Imputation durch verkettete Gleichungen in R (JSS 2011 45 (3))? Ich habe einen Datensatz mit einer Reihe von Variablen, von denen jede einen unterschiedlichen Grad an fehlenden Daten...

r regression bayesian data-imputation mice

9

Was ist besser, Ersatz durch Mittelwert und Ersatz durch Median?

Ich mache ein Projekt, bei dem fehlende Werte in einem Datensatz ersetzt werden (dies geschieht zum ersten Mal). Dies beinhaltet die Verwendung von zwei Methoden replacement by meanund replacement by mediandas Ausfüllen der fehlenden Werte. Es gibt keinen großen Unterschied zwischen den Ergebnissen...

mean median data-imputation

9

Multiple Imputation für fehlende Zähldaten in einer Zeitreihe aus einer Panelstudie

Ich versuche, ein Problem anzugehen, das sich mit der Imputation fehlender Daten aus einer Paneldatenstudie befasst. (Ich bin mir nicht sicher, ob ich die Paneldatenstudie richtig verwende - wie ich es heute gelernt habe.) Ich habe Daten zur Gesamtzahl der Todesfälle für die Jahre 2003 bis 2009...

r time-series panel-data data-imputation