Ist die Methode der mittleren Substitution zum Ersetzen fehlender Daten veraltet?

8

Ist die Methode der mittleren Substitution zum Ersetzen fehlender Daten veraltet? Gibt es anspruchsvollere Modelle, die verwendet werden sollten? Wenn ja, was sind sie?

Melissa Duncombe
quelle
Diese Seite könnte eine Antwort auf Ihre Frage geben. Der Link What is MIenthält eine Liste verschiedener Ressourcen.
mpiktas

Antworten:

14

Abgesehen von der Tatsache, dass es nicht notwendig ist, Mücken mit einer Kanone abzuschießen (dh wenn Sie einen fehlenden Wert in einer Million Datenpunkten haben, lassen Sie ihn einfach fallen), könnte die Verwendung des Mittelwerts gelinde gesagt suboptimal sein: Das Ergebnis kann verzerrt sein, und Sie sollten zumindest das Ergebnis für die Unsicherheit korrigieren.

Es gibt einige andere Optionen, aber die am einfachsten zu erklärende ist die Mehrfachzuschreibung. Das Konzept ist einfach: Basierend auf einem Modell für Ihre Daten selbst (z. B. aus den vollständigen Fällen, obwohl andere Optionen verfügbar sind, wie z. B. MICE), zeichnen Sie Werte aus der zugehörigen Verteilung, um Ihren Datensatz zu "vervollständigen". In diesem vollständigen Datensatz fehlen dann keine Daten mehr, und Sie können Ihre Analyse von Interesse ausführen.

Wenn Sie dies nur einmal getan haben (tatsächlich ist das Ersetzen der fehlenden Werte durch den Mittelwert eine sehr verzerrte Form davon), würde dies als einzelne Imputation bezeichnet, und es gibt keinen Grund, warum es eine bessere Leistung als das mittlere Ersetzen erzielen würde.

Allerdings: Der Trick besteht darin, dies wiederholt durchzuführen (daher Mehrfachimputation) und jedes Mal Ihre Analyse für jeden abgeschlossenen (= unterstellten) Datensatz durchzuführen. Das Ergebnis ist normalerweise eine Reihe von Parameterschätzungen oder Ähnlichem für jeden abgeschlossenen Datensatz. Unter relativ lockeren Bedingungen ist es in Ordnung, Ihre Parameterschätzungen über alle diese unterstellten Datensätze zu mitteln.

Der Vorteil ist, dass es auch eine einfache Formel gibt, um den Standardfehler an die durch die fehlenden Daten verursachte Unsicherheit anzupassen.

Wenn Sie mehr wissen möchten, möchten Sie wahrscheinlich Little 'und Rubins' Statistische Analyse mit fehlenden Daten 'lesen. Dies beinhaltet auch andere Methoden (EM, ...) und weitere Erklärungen, wie / warum / wann sie funktionieren.

Nick Sabbe
quelle
1
0p
11

Sie haben uns nicht viel über die Art Ihrer fehlenden Daten erzählt. Haben Sie nach MCAR gesucht ( fehlt völlig zufällig )? Da Sie MCAR nicht annehmen können, kann eine mittlere Substitution zu verzerrten Schätzern führen.

Als nicht-mathematischen Ausgangspunkt kann ich die folgenden zwei Referenzen empfehlen:

  1. Graham, Hohn W. (2009): Fehlende Datenanalyse: Damit es in der realen Welt funktioniert.
  2. Allison, Paul (2002): Fehlende Daten. (siehe Abschnitt "Imputation", S. 11)
Bernd Weiss
quelle
@ Bernd die Graham-Referenz ist extrem gut, sie hat mir sehr geholfen, den Dreh raus zu bekommen.
Richiemorrisroe
2

Wenn Ihre fehlenden Werte zufällig verteilt sind oder Ihre Stichprobengröße klein ist, ist es möglicherweise besser, nur den Mittelwert zu verwenden. Ich würde zuerst die Daten in zwei Teile aufteilen: einen mit den fehlenden Werten und den anderen ohne und dann den Unterschied in den Mitteln einiger Schlüsselvariablen zwischen den beiden Stichproben testen. Wenn es keinen Unterschied gibt, können Sie den Mittelwert ersetzen oder die Beobachtungen einfach vollständig löschen.

-Ralph Winters

Ralph Winters
quelle
1
Die Verwendung des Mittelwerts impliziert jedoch, dass Sie den Wert an diesem Punkt vorhersagen. Das ist nicht das, was los ist, sondern der Versuch, einen zufälligen Wert wiederherzustellen. Es scheint, dass Sie, da Sie auch eine Schätzung der Varianz haben, beide verwenden sollten (dh eine zufällige Ziehung aus der Verteilung).
John
Darüber hinaus verringert die mittlere Substitution die Varianz Ihrer Schätzungen, wodurch alle Ihre Standardfehler und Konfidenzintervalle für den Rest Ihrer Analyse auftreten.
Richiemorrisroe
Ja. Ich habe lediglich vorgeschlagen, die Populationen der fehlenden und nicht fehlenden Daten zu untersuchen, bevor blind in MI eingetaucht wird, was auf Kosten minimaler Gewinne viel Rechenleistung beanspruchen kann.
Ralph Winters
0

Fehlende Daten sind überall ein großes Problem. Ich wünschte, Sie würden zuerst die folgende Frage beantworten. 1) Wie viel Prozent des Alters der Daten fehlen? - Wenn es mehr als 10% der Daten sind, riskieren Sie nicht, sie mit Mittelwert zu belegen. Weil das Zuschreiben eines solchen Fehlens mit Mittelwert gleichbedeutend damit ist, der LR-Box mitzuteilen, dass sie aussieht. Diese Variable hat die meisten Stellen gemeint (ziehen Sie also eine Schlussfolgerung), und Sie möchten nicht, dass die LR-Box Schlussfolgerungen aus Ihren Vorschlägen zieht. Das Mindeste, was Sie tun können, wenn Sie nicht viel wollen, ist, dass Sie versuchen können, die verfügbaren Werte dieser Variablen mit unterschiedlichen Prädiktorenwerten in Beziehung zu setzen oder, wo immer möglich, einen Geschäftssinn zu verwenden. Beispiel: Wenn ich einen für Marriage_ind vermissten habe, einen der Möglichkeiten könnten sein, das Durchschnittsalter der verheirateten Menschen zu sehen (sagen wir, es ist 29), Ich kann davon ausgehen, dass Menschen (in Indien) im Allgemeinen mit 30 heiraten und 29 dies nahelegt. PROC MI erledigt die Sache auch intern für Sie, aber auf eine weitaus ausgefeiltere Art und Weise. Also meine 2 Cent. Sehen Sie mindestens 4-5 Variablen, die mit Ihren Fehlern verknüpft sind, und versuchen Sie, eine Korrelation zu bilden. Dies kann besser als der Mittelwert sein.

Ayush Biyani
quelle