Was ist besser, Ersatz durch Mittelwert und Ersatz durch Median?

9

Ich mache ein Projekt, bei dem fehlende Werte in einem Datensatz ersetzt werden (dies geschieht zum ersten Mal). Dies beinhaltet die Verwendung von zwei Methoden replacement by meanund replacement by mediandas Ausfüllen der fehlenden Werte. Es gibt keinen großen Unterschied zwischen den Ergebnissen der minimalen, mittleren, maximalen, mittleren und Standardabweichung der Daten mit beiden Methoden, und ich habe mich gefragt, welche Methode besser ist und wie ich mit der Methode entscheiden kann, welche besser ist Ergebnisse erzielt?

Jake MB
quelle
2
Wenn Sie Fehlschläge durch Mittelwerte ersetzen, bleibt der Mittelwert natürlich erhalten. Das Gleiche gilt für Mediane. Auch werden sich die Extreme nicht ändern. Die SDs werden normalerweise leicht reduziert, aber es würde stark reduziert, wenn Sie dies häufig tun. Dies sind vorhersehbare Konsequenzen Ihrer Tätigkeit und keine ipso facto Anzeichen dafür, dass die Methode gut ist.
Nick Cox
Analysten, die fehlende Werte (MVs) mit solchen automatischen "Lösungen" verbinden, denken nicht über die Konsequenzen nach. Es ist nur ein einfach zu implementierender Ansatz. Diese "Lösung" bringt so viele Probleme mit sich, wie sie löst, da ein ansonsten normalerweise glattes PDF in Abhängigkeit von der Anzahl der MVs eine große Spitze beim eingesteckten Wert aufweist. Modellbasierte Imputationen sind nachweislich überlegen und weniger vorgespannt als jeder automatisierte Ansatz. @NickCox kann dies nicht ignorieren, trotz dessen, was sein Vorschlag impliziert.
Mike Hunter
1
: @DJohnson ... nicht ipso facto Anzeichen dafür, dass die Methode gut ist. Nicht klar genug?
Nick Cox
Kategoriale Werte werden im Allgemeinen mit dem Modus unterstellt, da er den Wert darstellt, der für die angegebene Spalte am häufigsten verwendet wird.
Sandeep Kar

Antworten:

9

Es hängt immer von Ihren Daten und Ihrer Aufgabe ab.

Wenn es einen Datensatz mit großen Ausreißern gibt, bevorzuge ich den Median. Beispiel: 99% des Haushaltseinkommens liegen unter 100 und 1% über 500.

Wenn wir dagegen mit dem Tragen von Kleidung arbeiten, die Kunden der chemischen Reinigung geben (vorausgesetzt, die Bediener der chemischen Reinigung füllen dieses Feld intuitiv aus), fülle ich fehlende Teile mit dem Mittelwert des Verschleißes.

Es ist besser, vom Datenverständnis auszugehen, und dann ist dieser Artikel ein hilfreicher Ausgangspunkt.

Aleksandro M Granda
quelle
Die Daten, die ich verwende, können von 0 bis 1 reichen, und ich habe Histogramme mit Grenzwerten von 0,1,0,2,0,3 ... bis 1 erstellt. Da ich viele verschiedene Grenzwerte und Umrisse habe, würden Sie sagen, dass der Mittelwert am besten ist?
Jake MB
@ JakeM-B, es ist schwer, gute Ratschläge zu geben, wenn ich keinen direkten Zugriff auf die Daten und deren Verlauf habe. Oft bedeutet ein fehlender Wert in den Daten, dass der Wert Null sein sollte (oder etwas anderes als Standard). An Ihrer Stelle (wenn es keinen großen Unterschied zwischen Mittelwert und Median gibt) würde ich beide ausprobieren und prüfen, wie sich dies auf das Ergebnis auswirkt.
Aleksandro M Granda
6

Imputation ist ein Mittel zum Ziel, nicht das Ziel an sich. Unter bestimmten Umständen kann es falsch sein, fehlende Daten zu ersetzen. Stellen Sie sicher, dass Sie zuerst darauf achten, warum Ihre Daten fehlen, wie beispielsweise auf der Wikipedia-Seite Fehlende Daten erläutert , und dass die Imputation tatsächlich zur Beantwortung der Frage geeignet ist, die Ihr Projekt beantworten möchte.

Wenn einige Annahmen erfüllt sind (z. B. wenn die Wahrscheinlichkeit, dass eine Variable einen fehlenden Wert hat, nicht vom Wert selbst abhängt, der technisch als "zufällig fehlend" bezeichnet wird) und Ihre Studie mehrere Variablen umfasst, ist es möglicherweise besser, mehrere Imputationen zu verwenden eher als Ersatz durch Mittel oder Mediane. Bei der Mehrfachimputation werden bekannte Werte aller Variablen verwendet, um mehrere Sätze von Schätzungen der fehlenden Daten bereitzustellen. Dieser Ansatz kann bessere Schätzungen sowohl der zugrunde liegenden Beziehungen zwischen den Variablen als auch der Zuverlässigkeit Ihrer Schätzungen liefern. multiple-imputationWeitere Informationen finden Sie unter Fragen auf dieser Website mit dem Tag.

EdM
quelle