Wie kombiniere ich mehrere unterstellte Datensätze?

8

Ich benötige einen einzelnen unterstellten Datensatz (z. B. um einen Ländergruppen-Dummy aus den unterstellten Pro-Kopf-Einkommensdaten des Landes zu erstellen). R bietet ein Paketpaket zum Erstellen mehrerer unterstellter Daten (z. B. Amelia) und zum Kombinieren von Ergebnissen aus mehreren Datensätzen (wie in MItools). Ich mache mir Sorgen, ob ich alle unterstellten Daten mitteln kann, um einen einzigen Datensatz zu erhalten. Wenn ja, wie kann ich das in R machen?

Amirul Islam
quelle
5
Die Mittelung von Daten ist schlecht, da dadurch Korrelationen aufgeblasen werden. Die eigentliche Frage ist, warum Sie glauben, einen einzigen unterstellten Datensatz zu benötigen. Alles, was Sie mit einem einzelnen Datensatz tun können, können Sie mit einem mehrfach unterstellten Datensatz tun.
Stef van Buuren
@Stef: Ist es auch der Fall, wenn wir den Randeffekt bei einem Auswahlmodell wie dem Heckit-Modell berechnen wollen? Ich kann den Randeffekt auf jede unterstellte Daten berechnen. Die Frage ist jedoch, ob die Theorie etwas darüber zu sagen hat, wie diese kombiniert werden können. Vielen Dank.
Metriken
1
Nur Pool! Es gibt keine Theorie, die uns dies erlaubt. Aber es gibt auch keine Theorie, die dies verbietet.
Stef van Buuren
@Stef, in mouse :: pool wird angegeben, dass das Objekt with.mids () oder as.mira () sein soll. Können maschinelle Lernmodelle anstelle von Regressionsmethoden verwendet werden?
KarthikS

Antworten:

5

Sie können die Daten nicht mitteln. Da die Variablen für die unterstellten Daten gleich sind, müssen Sie alle unterstellten Daten anhängen. Wenn Sie beispielsweise 6 Variablen mit 1000 Beobachtungen haben und Ihre Imputationshäufigkeit 5 beträgt, haben Sie die endgültigen Daten von 6 Variablen mit 5000 Beobachtungen. Sie verwenden die rbindFunktion, um die Daten in R anzuhängen. Wenn Sie beispielsweise fünf unterstellte Daten haben (vorausgesetzt, Sie haben diese Daten bereits zur Hand), werden Ihre endgültigen Daten als erhalten

finaldata <- rbind(data1,data2,data3,data4,data5)

Details finden Sie hier.

Nach Anrechnung:

Der Regressionskoeffizient aus den unterstellten Daten ist normalerweise unterschiedlich. Der Koeffizient wird also als Durchschnitt der Koeffizienten aller unterstellten Daten erhalten. Es gibt jedoch eine zusätzliche Regel für Standardfehler. Siehe hier für Details.

Metriken
quelle
4
Die Aussage finaldata <- complete(data, "long")in [Mäuse] [1] macht dasselbe. Es kann auch andere Formen erzeugen, z. B. eine breite Matrix oder eine wiederholte Matrix. [1]: cran.r-project.org/web/packages/mice/index.html "Mäuse"
Stef van Buuren
@Stef: Danke. Ich habe noch nicht benutzt mice. Ich würde gerne wissen, ob die miceAnalyse durchgeführt wird, wenn wir nur mehrere unterstellte Daten (aber nicht die Originaldaten) aus der Umfrage haben.
Metriken
1
Ja, das können Sie, aber Sie müssen die mehrfach unterstellten Daten in ein Mittenobjekt umwandeln, um die Standardfunktionen für die Nachimputation von Mäusen für wiederholte Analysen, Diagnosen und Pools verwenden zu können. Die nächste Version von Mäusen (2.18) enthält eine as.mids-Funktion, die dies tut, für die jedoch die Originaldaten vorhanden sein müssen. Es wird (noch) nicht den Fall behandeln, in dem wir nicht wissen, wo die fehlenden Daten sind.
Stef van Buuren
Vielen Dank. So kann ich zum Beispiel immer noch nicht verwenden, wenn ich nur den mehrfach unterstellten Datensatz wie in Survey of Consumer Finance habe .
Metriken
3
Wenn Sie nicht wissen, wo sich die fehlenden Daten befinden, müssen Sie sie aus den unterstellten Daten zurückrechnen. Dadurch werden Punkte fälschlicherweise als beobachtet klassifiziert, wenn zufällig alle Imputationen für diese Zelle über die m Datensätze hinweg identisch sind. Infolgedessen kann die Diagnose unterstellte Punkte fälschlicherweise als beobachtete Punkte kennzeichnen (in der Mäuseterminologie: Einige rote Punkte werden fälschlicherweise als blaue Punkte dargestellt). Dies hat jedoch keinen Einfluss auf die Gültigkeit der statistischen Schlussfolgerungen. Mit etwas mehr Aufwand können Sie dies also tun.
Stef van Buuren
-1

Multiple Imputationsmodelle für fehlende Daten werden in der Praxis selten verwendet, da Simulationsstudien darauf hinweisen, dass die Wahrscheinlichkeit, dass die tatsächlich zugrunde liegenden Parameter innerhalb der Deckungsintervalle liegen, nicht immer genau dargestellt wird. Ich würde dringend empfehlen, den Prozess anhand simulierter Daten (mit genau bekannten Parametern) zu testen, die auf realen Daten im Untersuchungsbereich basieren. Eine Referenz für eine Simulationsstudie https://www.google.com/url?sa=t&source=web&rct=j&ei=Ua4BVJgD5MiwBMKggKgP&url=http://www.ssc.upenn.edu/~allison/MultInt99.pdf&cd=3 = d2VORWbqTNygdM6Z51TZEg

Ich vermute, dass die Verwendung von beispielsweise fünf einfachen / naiven Modellen für die fehlenden Daten besser dazu beiträgt, weniger Verzerrungen zu erzielen und Intervalle abzudecken, die die tatsächlichen zugrunde liegenden Parameter genau enthalten. Anstatt die Parmeterschätzungen zu bündeln, kann man es besser machen, indem man Bayes'sche Techniken einsetzt (siehe Arbeit mit Imputationsmodellen in diesem Licht unter https://www.google.com/url?sa=t&source=web&rct=j&ei=mqcAVP7RA5HoggSop4LoDw&url=http: //gking.harvard.edu/files/gking/files/measure.pdf&cd=5&ved=0CCUQFjAE&usg=AFQjCNFCZQwfWJDrrjzu4_5syV44vGOncA&sig2=XZUM14OMq_A01FyN4r61Z ).

Ja, nicht viel von einer klingenden Bestätigung von Standardmodellen für fehlende Datenimputation und um eine Quelle zu zitieren, zum Beispiel http://m.circoutcomes.ahajournals.org/content/3/1/98.short?rss=1&ssource=mfr : "Wir beschreiben einige Hintergründe der Analyse fehlender Daten und kritisieren Ad-hoc-Methoden, die zu schwerwiegenden Problemen neigen. Anschließend konzentrieren wir uns auf die mehrfache Imputation, bei der fehlende Fälle zuerst durch mehrere Sätze plausibler Werte ausgefüllt werden, um mehrere abgeschlossene Datensätze zu erstellen. .. "wo ich" (?) "nach plausiblen als naiven Modellen einfügen würde, werden im Allgemeinen nicht am besten als plausible Vorhersagen beschrieben. Modelle, die die abhängige Variable y selbst als unabhängige Variable (sogenannte Kalibrierungsregression) enthalten, können diese Charakterisierung jedoch besser erfüllen.

AJKOER
quelle