Betrügt es, die Ausreißer auf der Grundlage des Boxplots des mittleren absoluten Fehlers zu löschen, um ein Regressionsmodell zu verbessern?

15

Ich habe ein Vorhersagemodell mit vier Methoden getestet, wie Sie in der Boxplot-Abbildung unten sehen können. Das vom Modell vorhergesagte Attribut liegt im Bereich von 0 bis 8.

Möglicherweise stellen Sie fest, dass bei allen Methoden ein Ausreißer mit Obergrenze und drei Ausreißer mit Untergrenze angegeben sind. Ich frage mich, ob es angemessen ist, diese Instanzen aus den Daten zu entfernen. Oder ist dies eine Art Betrug, um das Vorhersagemodell zu verbessern?

Bildbeschreibung hier eingeben

renakre
quelle
1
(1) Ich sehe Ergebnisse für vier Methoden, nicht für drei. (2) Wie könnte das Entfernen von Hinweisen auf die Vorhersagefähigkeiten die Methoden möglicherweise verbessern?
Whuber
@whuber (1) ist behoben. Die (2), so dass Sie eine Instanz bedeuten entfernen , die sehr ungenau vorhergesagt wird, nicht zu einem besseren Vorhersage Leistung in insgesamt führen würde (das war , was ich mit gemeint „verbessern Modell“ ?
renakre
7
Das Entfernen einer Beobachtung aus irgendeinem Grund (sagen wir, die 4 am wenigsten passenden Punkte) ist selbst eine Modellwahl. Sie sollten die Prognoseleistung bewerten diese zweiten Modell Wahl zu . Der springende Punkt besteht darin, die Integrität des endgültigen Testsatzes zu bewahren, der zur Bewertung der Leistung der gesamten Vorhersagemethode verwendet wird. Aus Ihrer Frage geht nicht hervor, ob Sie die Modelle (Lasso usw.) nach dem Löschen der falsch vorhergesagten Daten nachrüsten möchten.
user603
2
Als Randbemerkung möchte ich hinzufügen, dass manchmal ein großer Wert in den Ausreißern verborgen ist und es sich lohnt, sie genau zu betrachten.
Dror Atariah
@ DrorAtariah Danke Dror, ich stimme zu. Extremfälle sind wertvoll.
Renakre

Antworten:

22

Es ist fast immer ein Betrug, Beobachtungen zu entfernen , um ein Regressionsmodell zu verbessern . Sie sollten Beobachtungen nur fallen lassen, wenn Sie wirklich glauben, dass dies tatsächlich Ausreißer sind.

Sie haben beispielsweise Zeitreihen vom Herzfrequenzmesser an Ihre Smartwatch angeschlossen. Wenn Sie sich die Serie ansehen, ist es leicht zu erkennen, dass es bei Messwerten wie 300 bps zu fehlerhaften Beobachtungen kommen würde. Diese sollten entfernt werden, aber nicht, weil Sie das Modell verbessern möchten (was immer es bedeutet). Es handelt sich um Lesefehler, die nichts mit Ihrer Herzfrequenz zu tun haben.

Eine Sache, die Sie jedoch beachten sollten, ist die Korrelation von Fehlern mit den Daten. In meinem Beispiel könnte argumentiert werden, dass Sie Fehler haben, wenn der Herzfrequenzmesser während Übungen wie Laufen oder Springen verschoben wird. Wodurch diese Fehler mit der Herzfrequenz korreliert werden. In diesem Fall müssen diese Ausreißer und Fehler sorgfältig entfernt werden, da dies nicht der Fall ist zufällig sind

Ich werde Ihnen ein Beispiel geben, wann Sie Ausreißer nicht entfernen sollten . Angenommen, Sie messen die Bewegung eines Gewichts an einer Feder. Wenn das Gewicht im Verhältnis zur Stärke des Gewichts klein ist , werden Sie feststellen, dass das Hookesche Gesetz sehr gut funktioniert: wobei F Kraft, k Spannungskoeffizient und Δ x die Position des Gewichts ist .

F=kΔx,
FkΔx

Wenn Sie nun ein sehr schweres Gewicht aufsetzen oder das Gewicht zu stark verschieben, werden Abweichungen sichtbar: Bei ausreichend großen Abweichungen scheint die Bewegung vom linearen Modell abzuweichen. Sie könnten also versucht sein, die Ausreißer zu entfernen , um das lineare Modell zu verbessern. Dies wäre keine gute Idee, da das Modell nicht sehr gut funktioniert, da Hookes Gesetz nur annähernd richtig ist.Δx

UPDATE In Ihrem Fall würde ich vorschlagen, diese Datenpunkte zu ziehen und näher zu betrachten. Könnte es sich um ein Versagen des Laborgeräts handeln? Externe Störungen? Probendefekt? etc.

Versuchen Sie als nächstes herauszufinden, ob das Vorhandensein dieser Ausreißer mit dem korreliert werden kann, was Sie in dem von mir angegebenen Beispiel messen. Wenn es eine Korrelation gibt, gibt es keinen einfachen Weg, dies zu erreichen. Wenn keine Korrelation besteht, können Sie die Ausreißer entfernen

Aksakal
quelle
2
It is always a cheating to remove outliers to improve a regression model. Betrachten Sie Spline-Regression als Betrug ? FWIW, es macht Down-Weight-Beobachtungen, um das [lokale] Regressionsmodell zu verbessern ~
user603
1
Ich würde nicht zustimmen "Es ist immer ein Betrug, Ausreißer zu entfernen, um ein Regressionsmodell zu verbessern." Es gibt viele Tools für die Regressionsdiagnose. Das Ziel besteht darin, Ausreißer zu erkennen und zu "entfernen" und das Modell zu überarbeiten.
Haitao Du
6
@ hxd1011 die tools wie grubbs sollen ausreißer nicht automatisch entfernen. Sie zeigen nur an, dass es möglicherweise einen Ausreißer gibt. Dann entscheiden Sie, ob es sich tatsächlich um einen Ausreißer handelt. Es ist ein sehr gefährlicher Ansatz, die Fit-Diagnose zu verbessern, indem Ausreißer automatisch entfernt werden. Sie müssen von Fall zu Fall analysiert werden.
Aksakal
2
Ok ich verstehe. Meine Originalsprache war zu starr. Ich habe den Eröffnungssatz bearbeitet. Vielen Dank für das Feedback an die Kommentatoren
Aksakal
1
@renakre, wenn Sie nicht glauben, dass dies Ausreißer sind, entfernen Sie die Beobachtungen nicht. Was Sie jedoch möglicherweise berücksichtigen müssen, ist das Maß für die Güte der Vorhersage, bei dem es sich nicht um einen quadratischen Fehler handelt. Wenn diese Instanzen beispielsweise für Sie nicht so wichtig sind, müssen Sie sie möglicherweise nicht quadratisch gewichten und stattdessen die absolute Abweichung usw. verwenden. Die Kennzahl sollte die Bedeutung von Prognosefehlern widerspiegeln, z. B. Dollarverluste bei jedem Prognosefehler . Auch die Tatsache, dass es sich um Zählungen handelt, bedeutet nicht automatisch, dass keine
Gerätefehler vorliegen.
4

Ich wollte dies ursprünglich als Kommentar zu einer anderen Antwort posten, aber es wurde zu lang, um es zu passen.

Wenn ich mir Ihr Modell anschaue, muss es nicht unbedingt eine große Gruppe und einige Ausreißer enthalten. Meiner Meinung nach enthält es 1 mittelgroße Gruppe (1 bis -1) und dann 6 kleinere Gruppen, die sich jeweils zwischen 2 ganzen Zahlen befinden. Sie können ziemlich deutlich erkennen, dass bei Erreichen einer ganzen Zahl bei diesen Frequenzen weniger Beobachtungen auftreten. Der einzige spezielle Punkt ist 0, wo es keinen wirklich erkennbaren Rückgang der Beobachtungen gibt.

Meiner Meinung nach lohnt es sich zu untersuchen, warum diese Distribution so verbreitet ist:

  • Warum sinkt die Anzahl dieser Beobachtungen in der Verteilung bei ganzen Zahlen?
  • warum fällt diese beobachtung nicht bei 0 ab?
  • Was ist an diesen Ausreißern so besonders, dass sie Ausreißer sind?

Wenn Sie diskrete menschliche Handlungen messen, werden Sie immer Ausreißer haben. Es kann interessant sein zu sehen, warum diese Ausreißer nicht zu Ihrem Modell passen und wie sie verwendet werden können, um zukünftige Iterationen Ihres Modells zu verbessern.

Nzall
quelle
+1. Die Lücke zwischen den ganzen Zahlen scheint nicht immer bei allen Zahlen zu stimmen, so dass wir vielleicht eher ein Muster sehen, das nicht existiert, aber es könnte ein Artefakt der Datenerfassung, -codierung oder -diskretisierung sein, das Licht ins Dunkel bringen könnte auf die Daten als Ganzes. Es kann sogar eine Lücke bei 0 geben, die durch die große Anzahl überlappender und möglicherweise zitternder Punkte verdeckt wird. Es lohnt sich auf jeden Fall, zum Ursprung zurückzukehren, um zu sehen, ob die Daten unserer Meinung nach so sind.
Wayne
2

Es gibt Vor- und Nachteile, Ausreißer zu entfernen und Modelle nur für "normale Muster" zu erstellen.

  • Vorteile: Die Modellleistung ist besser. Die Intuition ist, dass es sehr schwierig ist, EIN Modell zu verwenden, um sowohl "normales Muster" als auch "Ausreißermuster" zu erfassen. Also entfernen wir Ausreißer und sagen, wir bauen nur ein Modell für "normales Muster".

  • Nachteile: Wir können Ausreißer nicht vorhersagen. Mit anderen Worten: Nehmen wir an, wir stellen unser Modell in Produktion, dann fehlen einige Vorhersagen aus dem Modell

Ich würde vorschlagen, Ausreißer zu entfernen und das Modell zu erstellen, und wenn möglich, ein separates Modell nur für Ausreißer zu erstellen.

Wenn Sie für das Wort "Betrug" Papier schreiben und explizit auflisten, wie Sie Ausreißer definieren und entfernen, und die Erwähnung einer verbesserten Leistung sich nur auf die bereinigten Daten bezieht. Es betrügt nicht.

Haitao Du
quelle
3
Es macht mir nichts aus, abgelehnt zu werden, aber könnte mir jemand den Grund nennen?
Haitao Du
Ich habe upvoted :) Halten Sie es auch für eine gute Idee, die Ausreißer zu entfernen und dann die Daten erneut abzutasten, um das Vorhersagemodell weiter zu testen?
Renakre
1
@renakre Ich würde Ihnen vorschlagen, darüber nachzudenken, was Sie in der Produktion tun sollen. Nehmen wir an, Sie haben festgestellt, dass der Ausreißer nur 1% beträgt und es in Ordnung ist, in der Produktion keinen Output zu produzieren. Dann entfernen Sie sie einfach. Wenn Sie eine Abweichung von 30% feststellen, ist es nicht in Ordnung, Vorhersagen in der Produktion zu überspringen. Versuchen Sie dann, ein separates Modell dafür zu haben.
Haitao Du
Wir testen hauptsächlich Dinge, um zu sehen, ob wir eine Ergebnisvariable vorhersagen können. Bedeutet if it is fine to produce no output in productiondas dasselbe? Wenn wir also damit beginnen, unser Modell in einer realen Anwendung zu verwenden, um die Ergebnisvariable zu testen und die vorhergesagte Punktzahl in der Anwendung zu verwenden, ist es nicht in Ordnung, Ausreißer zu entfernen (insbesondere, wenn es sich um viele handelt, wie Sie erwähnt haben)? Ist es das was du meintest?
Renakre
1
@renakre Sie sind tot auf! So haben wir es kürzlich mit AITOBOX gemacht, wo die Prognosegrenzen nicht nur auf den Psi-Gewichten basieren, sondern auch auf den neu abgetasteten Fehlern, die mit Ausreißern bevölkert sind. Dies geschieht nicht nur für ARIMA-Modelle, sondern auch für Kausalmodelle, bei denen die Unsicherheit in den Prädiktoren auf ähnliche Weise berücksichtigt wird.
IrishStat
2

Ich halte es nur für sinnvoll, Ausreißer zu entfernen, wenn man einen soliden qualitativen Grund dafür hat. Damit meine ich, dass man Informationen hat, dass eine andere Variable, die nicht im Modell enthalten ist, die Ausreißer-Beobachtungen beeinflusst. Dann hat man die Wahl, den Ausreißer zu entfernen oder zusätzliche Variablen hinzuzufügen.

Wenn ich in meinem Datensatz Ausreißerbeobachtungen habe, erfahre ich durch Untersuchung, warum der Ausreißer existiert, mehr über meine Daten und mögliche andere zu berücksichtigende Modelle.

user151162
quelle
1
Willkommen bei stats.SE! Bitte nehmen Sie sich einen Moment Zeit, um unsere Tour anzusehen . Es wäre hilfreich, wenn Sie Ihre Antwort erweitern würden, um die Frage vollständiger zu beantworten (z. B. Ausreißerermittlung basierend auf Boxplot, mögliche Auswirkungen dieser Methode auf das Vorhersagemodell usw.).
Tavrock
2

Ich bin nicht einmal davon überzeugt, dass sie "Ausreißer" sind. Vielleicht möchten Sie ein normales Wahrscheinlichkeitsdiagramm erstellen. Sind es Daten oder Residuen von der Anpassung eines Modells?

Emil M Friedman
quelle
Sie sind der Unterschied zwischen den vorhergesagten und den realen Werten.
Renakre