Ich mache ein Projekt, bei dem fehlende Werte in einem Datensatz ersetzt werden (dies geschieht zum ersten Mal). Dies beinhaltet die Verwendung von zwei Methoden replacement by mean
und replacement by median
das Ausfüllen der fehlenden Werte. Es gibt keinen großen Unterschied zwischen den Ergebnissen der minimalen, mittleren, maximalen, mittleren und Standardabweichung der Daten mit beiden Methoden, und ich habe mich gefragt, welche Methode besser ist und wie ich mit der Methode entscheiden kann, welche besser ist Ergebnisse erzielt?
mean
median
data-imputation
Jake MB
quelle
quelle
Antworten:
Es hängt immer von Ihren Daten und Ihrer Aufgabe ab.
Wenn es einen Datensatz mit großen Ausreißern gibt, bevorzuge ich den Median. Beispiel: 99% des Haushaltseinkommens liegen unter 100 und 1% über 500.
Wenn wir dagegen mit dem Tragen von Kleidung arbeiten, die Kunden der chemischen Reinigung geben (vorausgesetzt, die Bediener der chemischen Reinigung füllen dieses Feld intuitiv aus), fülle ich fehlende Teile mit dem Mittelwert des Verschleißes.
Es ist besser, vom Datenverständnis auszugehen, und dann ist dieser Artikel ein hilfreicher Ausgangspunkt.
quelle
Imputation ist ein Mittel zum Ziel, nicht das Ziel an sich. Unter bestimmten Umständen kann es falsch sein, fehlende Daten zu ersetzen. Stellen Sie sicher, dass Sie zuerst darauf achten, warum Ihre Daten fehlen, wie beispielsweise auf der Wikipedia-Seite Fehlende Daten erläutert , und dass die Imputation tatsächlich zur Beantwortung der Frage geeignet ist, die Ihr Projekt beantworten möchte.
Wenn einige Annahmen erfüllt sind (z. B. wenn die Wahrscheinlichkeit, dass eine Variable einen fehlenden Wert hat, nicht vom Wert selbst abhängt, der technisch als "zufällig fehlend" bezeichnet wird) und Ihre Studie mehrere Variablen umfasst, ist es möglicherweise besser, mehrere Imputationen zu verwenden eher als Ersatz durch Mittel oder Mediane. Bei der Mehrfachimputation werden bekannte Werte aller Variablen verwendet, um mehrere Sätze von Schätzungen der fehlenden Daten bereitzustellen. Dieser Ansatz kann bessere Schätzungen sowohl der zugrunde liegenden Beziehungen zwischen den Variablen als auch der Zuverlässigkeit Ihrer Schätzungen liefern.
multiple-imputation
Weitere Informationen finden Sie unter Fragen auf dieser Website mit dem Tag.quelle