Ich benötige einen einzelnen unterstellten Datensatz (z. B. um einen Ländergruppen-Dummy aus den unterstellten Pro-Kopf-Einkommensdaten des Landes zu erstellen). R bietet ein Paketpaket zum Erstellen mehrerer unterstellter Daten (z. B. Amelia) und zum Kombinieren von Ergebnissen aus mehreren Datensätzen (wie in MItools). Ich mache mir Sorgen, ob ich alle unterstellten Daten mitteln kann, um einen einzigen Datensatz zu erhalten. Wenn ja, wie kann ich das in R machen?
r
data-imputation
Amirul Islam
quelle
quelle
Antworten:
Sie können die Daten nicht mitteln. Da die Variablen für die unterstellten Daten gleich sind, müssen Sie alle unterstellten Daten anhängen. Wenn Sie beispielsweise 6 Variablen mit 1000 Beobachtungen haben und Ihre Imputationshäufigkeit 5 beträgt, haben Sie die endgültigen Daten von 6 Variablen mit 5000 Beobachtungen. Sie verwenden die
rbind
Funktion, um die Daten in R anzuhängen. Wenn Sie beispielsweise fünf unterstellte Daten haben (vorausgesetzt, Sie haben diese Daten bereits zur Hand), werden Ihre endgültigen Daten als erhaltenDetails finden Sie hier.
Nach Anrechnung:
Der Regressionskoeffizient aus den unterstellten Daten ist normalerweise unterschiedlich. Der Koeffizient wird also als Durchschnitt der Koeffizienten aller unterstellten Daten erhalten. Es gibt jedoch eine zusätzliche Regel für Standardfehler. Siehe hier für Details.
quelle
finaldata <- complete(data, "long")
in [Mäuse] [1] macht dasselbe. Es kann auch andere Formen erzeugen, z. B. eine breite Matrix oder eine wiederholte Matrix. [1]: cran.r-project.org/web/packages/mice/index.html "Mäuse"mice
. Ich würde gerne wissen, ob diemice
Analyse durchgeführt wird, wenn wir nur mehrere unterstellte Daten (aber nicht die Originaldaten) aus der Umfrage haben.Multiple Imputationsmodelle für fehlende Daten werden in der Praxis selten verwendet, da Simulationsstudien darauf hinweisen, dass die Wahrscheinlichkeit, dass die tatsächlich zugrunde liegenden Parameter innerhalb der Deckungsintervalle liegen, nicht immer genau dargestellt wird. Ich würde dringend empfehlen, den Prozess anhand simulierter Daten (mit genau bekannten Parametern) zu testen, die auf realen Daten im Untersuchungsbereich basieren. Eine Referenz für eine Simulationsstudie https://www.google.com/url?sa=t&source=web&rct=j&ei=Ua4BVJgD5MiwBMKggKgP&url=http://www.ssc.upenn.edu/~allison/MultInt99.pdf&cd=3 = d2VORWbqTNygdM6Z51TZEg
Ich vermute, dass die Verwendung von beispielsweise fünf einfachen / naiven Modellen für die fehlenden Daten besser dazu beiträgt, weniger Verzerrungen zu erzielen und Intervalle abzudecken, die die tatsächlichen zugrunde liegenden Parameter genau enthalten. Anstatt die Parmeterschätzungen zu bündeln, kann man es besser machen, indem man Bayes'sche Techniken einsetzt (siehe Arbeit mit Imputationsmodellen in diesem Licht unter https://www.google.com/url?sa=t&source=web&rct=j&ei=mqcAVP7RA5HoggSop4LoDw&url=http: //gking.harvard.edu/files/gking/files/measure.pdf&cd=5&ved=0CCUQFjAE&usg=AFQjCNFCZQwfWJDrrjzu4_5syV44vGOncA&sig2=XZUM14OMq_A01FyN4r61Z ).
Ja, nicht viel von einer klingenden Bestätigung von Standardmodellen für fehlende Datenimputation und um eine Quelle zu zitieren, zum Beispiel http://m.circoutcomes.ahajournals.org/content/3/1/98.short?rss=1&ssource=mfr : "Wir beschreiben einige Hintergründe der Analyse fehlender Daten und kritisieren Ad-hoc-Methoden, die zu schwerwiegenden Problemen neigen. Anschließend konzentrieren wir uns auf die mehrfache Imputation, bei der fehlende Fälle zuerst durch mehrere Sätze plausibler Werte ausgefüllt werden, um mehrere abgeschlossene Datensätze zu erstellen. .. "wo ich" (?) "nach plausiblen als naiven Modellen einfügen würde, werden im Allgemeinen nicht am besten als plausible Vorhersagen beschrieben. Modelle, die die abhängige Variable y selbst als unabhängige Variable (sogenannte Kalibrierungsregression) enthalten, können diese Charakterisierung jedoch besser erfüllen.
quelle