Winsorizing Daten Mittel ersetzen die Extremwerte eines Datensatzes mit einem bestimmten Perzentilwert von jedem Ende, während Trimm- oder Abschneiden beinhaltet das Entfernen dieser Extremwerte.
Ich sehe beide diskutierten Methoden immer als eine praktikable Option, um die Auswirkung von Ausreißern bei der Berechnung von Statistiken wie dem Mittelwert oder der Standardabweichung zu verringern, aber ich habe nicht gesehen, warum eine über die andere wählen könnte.
Gibt es relative Vor- oder Nachteile bei der Verwendung von Winsorizing oder Trimmen? Gibt es bestimmte Situationen, in denen eine Methode vorzuziehen wäre? Wird man in der Praxis häufiger verwendet oder sind sie grundsätzlich austauschbar?
Antworten:
In einer anderen, aber verwandten Frage zum Trimmen, über die ich gerade gestolpert bin, hatte eine Antwort die folgende hilfreiche Einsicht, warum man entweder Winsorizing oder Trimmen verwenden könnte:
Ich bin gespannt, ob es einen definitiveren Ansatz gibt, aber die obige Logik klingt vernünftig.
quelle
Eine gute Frage, die in allen Bereichen sehr oft gestellt wird! In beiden Fällen entfernen Sie sie technisch aus dem Datensatz.
Ich weiß, dass es gängige Praxis ist, einen Trend grafisch zu finden, um eine Form der Kürzung zu verwenden: Verwenden Sie den gesamten Datensatz zum Zeichnen, schließen Sie dann die Extremwerte für die Interpretation aus.
Das Problem beim "Winsorizing" ist, dass die von Ihnen hinzugefügten Teile sich selbst erfüllen, das heißt, sie stammen aus dem Datensatz selbst und unterstützen ihn einfach. Es gibt ähnliche Probleme, wenn Sie sich die Validierungs- / Klassifizierungsarbeit beim maschinellen Lernen ansehen und entscheiden, wie Trainings- und Testdatensätze verwendet werden sollen.
Ich bin auf keinen Fall auf einen standardisierten Ansatz gestoßen - er ist immer datenspezifisch. Sie können versuchen herauszufinden, welches Perzentil Ihrer Daten (die Ausreißer) einen bestimmten Prozentsatz der Volatilität / st verursacht. Abweichung, und finden Sie ein Gleichgewicht zwischen der Verringerung dieser Volatilität, aber so viele Daten wie möglich zu behalten.
quelle
Dies ist eine gute Frage, mit der ich konfrontiert wurde. In Fällen, in denen Sie einen großen oder genauer gesagt einen stark variierenden Datensatz haben, in denen die Minderheit der Datenwerte über einen weiten Bereich variiert (aber dennoch angezeigt werden muss) und der Großteil des Datensatzes in einem schmalen Band liegt, Wenn die Daten so gezeichnet werden, wie sie vorliegen, gehen die Details verloren, in denen der Großteil der Daten verloren geht, und die Normalisierung oder Standardisierung zeigt keine ausreichende Differenzierung (zumindest visuell), oder es sind stattdessen Rohdaten erforderlich, um die Daten zu kürzen oder zu gewinnen Extreme Datenwerte helfen bei der besseren Datenvisualisierung.
quelle
quelle