Trimmmittelwert gegen Median

9

Ich habe einen Datensatz mit allen Anrufen bei einem Rettungsdienst und den Reaktionszeiten der Krankenwagenabteilung. Sie gaben zu, dass es einige Fehler bei den Antwortzeiten gibt, da es Fälle gibt, in denen sie nicht mit der Aufnahme begonnen haben (der Wert ist also 0) oder in denen sie die Uhr nicht angehalten haben (der Wert kann also extrem hoch sein).

Ich möchte die zentrale Tendenz herausfinden und habe mich gefragt, ob es besser ist, den Median oder den getrimmten Mittelwert zu verwenden, um die Ausreißer loszuwerden.

Duarte_RV
quelle
1
Erstens würde ich alle ungültigen Daten löschen (Wert = 0). Dann würde ich die Daten mit einem Histogramm oder einem Boxplot visualisieren, um zu sehen, wo ich stehe. Weil Sie die Daten nicht einfach blind um 5%
kürzen können,
Ja, oder plotten Sie die CDF. Führen Sie in R Folgendes aus: times = times [times> 0]; Handlung (ecdf (Zeiten))
Paul

Antworten:

12

Überlegen Sie, was ein getrimmter Mittelwert ist: Im prototypischen Fall sortieren Sie Ihre Daten zunächst in aufsteigender Reihenfolge. Dann zählen Sie bis zum Trimmprozentsatz von unten und verwerfen diese Werte. Zum Beispiel ist ein um 10% getrimmter Mittelwert üblich; In diesem Fall zählen Sie vom niedrigsten Wert bis Sie 10% aller Daten in Ihrem Satz übergeben haben. Die Werte unter dieser Markierung werden beiseite gelegt. Ebenso zählen Sie vom höchsten Wert herunter, bis Sie Ihren Trimmprozentsatz überschritten haben, und legen alle größeren Werte beiseite. Sie haben jetzt die mittleren 80%. Sie nehmen den Mittelwert davon, und das ist Ihr um 10% getrimmter Mittelwert. (Beachten Sie, dass Sie ungleiche Proportionen von den beiden Schwänzen oder nur einen Schwanz abschneiden können. Diese Ansätze sind jedoch weniger verbreitet und scheinen für Ihre Situation nicht zutreffend zu sein.)

Überlegen Sie nun, was passieren würde, wenn Sie einen um 50% reduzierten Mittelwert berechnen würden. Die untere Hälfte würde beiseite gelegt, ebenso die obere Hälfte. Sie würden nur den einzelnen Wert in der Mitte haben (normalerweise). Sie würden den Mittelwert davon (das heißt, Sie würden nur diesen Wert nehmen) als Ihren getrimmten Mittelwert nehmen. Beachten Sie jedoch, dass dieser Wert der Median ist. Mit anderen Worten, der Median ist ein getrimmter Mittelwert (es ist ein zu 50% getrimmter Mittelwert). Es ist nur sehr aggressiv. Es wird im Wesentlichen davon ausgegangen, dass 99% Ihrer Daten kontaminiert sind. Dies bietet Ihnen den ultimativen Schutz vor Ausreißern auf Kosten des ultimativen Verlusts an Leistung / Effizienz .

Ich vermute, dass ein Median / 50% getrimmter Mittelwert viel aggressiver ist als für Ihre Daten erforderlich und zu verschwenderisch für die Informationen ist, die Ihnen zur Verfügung stehen. Wenn Sie den Anteil der vorhandenen Ausreißer kennen, würde ich diese Informationen verwenden, um den Trimmprozentsatz festzulegen und den entsprechenden Trimmmittelwert zu verwenden. Wenn Sie keine Grundlage für die Auswahl des Trimmprozentsatzes haben, können Sie einen durch Kreuzvalidierung auswählen oder eine robuste Regressionsanalyse mit nur einem Achsenabschnitt verwenden.

gung - Monica wieder einsetzen
quelle
1
Ich stimme dem Geist zu, aber es könnte falsch verstanden werden, dass implizierte Mittel notwendigerweise auf dem Trimmen gleicher Brüche in jedem Schwanz beruhen. Dies ist nur ein übliches Verfahren, und das Verfahren, das am häufigsten für einen Referenzfall von ungefähr symmetrischen, aber möglicherweise fettverteilten Verteilungen diskutiert wird, ist jedoch keineswegs obligatorisch. Es gibt eine Literatur zum Trimmen nur eines Schwanzes, die sinnvoll ist, wenn alle zweifelhaften Werte im Schwanz liegen könnten.
Nick Cox
@ NickCox, guter Punkt. Ich habe einen kleinen Text hinzugefügt, um das zu verdeutlichen. Lassen Sie mich wissen, wenn Sie denken, dass es mehr braucht.
Gung - Reinstate Monica
Sieht gut aus. Natürlich ist das Trimmen in einem Schwanz nur der Sonderfall mit ungleichen Anteilen, bei dem ein Anteil Null ist.
Nick Cox
@ NickCox, klar, aber ich dachte, es wäre besser, explizit zu sein.
Gung - Reinstate Monica
-1

Entfernen Sie zunächst die ungültigen Daten.

Zweitens müssen Sie die Ausreißer nicht entfernen, da es sich um beobachtete Werte handelt. In einigen Fällen ist es nützlich (wie bei der linearen Regression), aber in Ihrem Fall sehe ich den Punkt nicht.

Verwenden Sie zum Schluss lieber den Median, da es genauer ist, das Zentrum Ihrer Daten zu finden. Wie Sie sagten, kann der Mittelwert für Ausreißer empfindlich sein (die Verwendung eines getrimmten Mittelwerts kann verzerrt sein).

Philippe Remy
quelle
3
Da die Standortschätzung ein besonderer Fall der Regression ist, wäre ich gespannt, wie nützlich es sein kann, Ausreißer im letzteren, aber nicht im ersteren Fall zu entfernen.
user603