Ich habe einen Datensatz mit allen Anrufen bei einem Rettungsdienst und den Reaktionszeiten der Krankenwagenabteilung. Sie gaben zu, dass es einige Fehler bei den Antwortzeiten gibt, da es Fälle gibt, in denen sie nicht mit der Aufnahme begonnen haben (der Wert ist also 0) oder in denen sie die Uhr nicht angehalten haben (der Wert kann also extrem hoch sein).
Ich möchte die zentrale Tendenz herausfinden und habe mich gefragt, ob es besser ist, den Median oder den getrimmten Mittelwert zu verwenden, um die Ausreißer loszuwerden.
mean
outliers
median
trimmed-mean
Duarte_RV
quelle
quelle
Antworten:
Überlegen Sie, was ein getrimmter Mittelwert ist: Im prototypischen Fall sortieren Sie Ihre Daten zunächst in aufsteigender Reihenfolge. Dann zählen Sie bis zum Trimmprozentsatz von unten und verwerfen diese Werte. Zum Beispiel ist ein um 10% getrimmter Mittelwert üblich; In diesem Fall zählen Sie vom niedrigsten Wert bis Sie 10% aller Daten in Ihrem Satz übergeben haben. Die Werte unter dieser Markierung werden beiseite gelegt. Ebenso zählen Sie vom höchsten Wert herunter, bis Sie Ihren Trimmprozentsatz überschritten haben, und legen alle größeren Werte beiseite. Sie haben jetzt die mittleren 80%. Sie nehmen den Mittelwert davon, und das ist Ihr um 10% getrimmter Mittelwert. (Beachten Sie, dass Sie ungleiche Proportionen von den beiden Schwänzen oder nur einen Schwanz abschneiden können. Diese Ansätze sind jedoch weniger verbreitet und scheinen für Ihre Situation nicht zutreffend zu sein.)
Überlegen Sie nun, was passieren würde, wenn Sie einen um 50% reduzierten Mittelwert berechnen würden. Die untere Hälfte würde beiseite gelegt, ebenso die obere Hälfte. Sie würden nur den einzelnen Wert in der Mitte haben (normalerweise). Sie würden den Mittelwert davon (das heißt, Sie würden nur diesen Wert nehmen) als Ihren getrimmten Mittelwert nehmen. Beachten Sie jedoch, dass dieser Wert der Median ist. Mit anderen Worten, der Median ist ein getrimmter Mittelwert (es ist ein zu 50% getrimmter Mittelwert). Es ist nur sehr aggressiv. Es wird im Wesentlichen davon ausgegangen, dass 99% Ihrer Daten kontaminiert sind. Dies bietet Ihnen den ultimativen Schutz vor Ausreißern auf Kosten des ultimativen Verlusts an Leistung / Effizienz .
Ich vermute, dass ein Median / 50% getrimmter Mittelwert viel aggressiver ist als für Ihre Daten erforderlich und zu verschwenderisch für die Informationen ist, die Ihnen zur Verfügung stehen. Wenn Sie den Anteil der vorhandenen Ausreißer kennen, würde ich diese Informationen verwenden, um den Trimmprozentsatz festzulegen und den entsprechenden Trimmmittelwert zu verwenden. Wenn Sie keine Grundlage für die Auswahl des Trimmprozentsatzes haben, können Sie einen durch Kreuzvalidierung auswählen oder eine robuste Regressionsanalyse mit nur einem Achsenabschnitt verwenden.
quelle
Entfernen Sie zunächst die ungültigen Daten.
Zweitens müssen Sie die Ausreißer nicht entfernen, da es sich um beobachtete Werte handelt. In einigen Fällen ist es nützlich (wie bei der linearen Regression), aber in Ihrem Fall sehe ich den Punkt nicht.
Verwenden Sie zum Schluss lieber den Median, da es genauer ist, das Zentrum Ihrer Daten zu finden. Wie Sie sagten, kann der Mittelwert für Ausreißer empfindlich sein (die Verwendung eines getrimmten Mittelwerts kann verzerrt sein).
quelle