Ich habe ein Vorhersagemodell mit vier Methoden getestet, wie Sie in der Boxplot-Abbildung unten sehen können. Das vom Modell vorhergesagte Attribut liegt im Bereich von 0 bis 8.
Möglicherweise stellen Sie fest, dass bei allen Methoden ein Ausreißer mit Obergrenze und drei Ausreißer mit Untergrenze angegeben sind. Ich frage mich, ob es angemessen ist, diese Instanzen aus den Daten zu entfernen. Oder ist dies eine Art Betrug, um das Vorhersagemodell zu verbessern?
Antworten:
Es ist fast immer ein Betrug, Beobachtungen zu entfernen , um ein Regressionsmodell zu verbessern . Sie sollten Beobachtungen nur fallen lassen, wenn Sie wirklich glauben, dass dies tatsächlich Ausreißer sind.
Sie haben beispielsweise Zeitreihen vom Herzfrequenzmesser an Ihre Smartwatch angeschlossen. Wenn Sie sich die Serie ansehen, ist es leicht zu erkennen, dass es bei Messwerten wie 300 bps zu fehlerhaften Beobachtungen kommen würde. Diese sollten entfernt werden, aber nicht, weil Sie das Modell verbessern möchten (was immer es bedeutet). Es handelt sich um Lesefehler, die nichts mit Ihrer Herzfrequenz zu tun haben.
Eine Sache, die Sie jedoch beachten sollten, ist die Korrelation von Fehlern mit den Daten. In meinem Beispiel könnte argumentiert werden, dass Sie Fehler haben, wenn der Herzfrequenzmesser während Übungen wie Laufen oder Springen verschoben wird. Wodurch diese Fehler mit der Herzfrequenz korreliert werden. In diesem Fall müssen diese Ausreißer und Fehler sorgfältig entfernt werden, da dies nicht der Fall ist zufällig sind
Ich werde Ihnen ein Beispiel geben, wann Sie Ausreißer nicht entfernen sollten . Angenommen, Sie messen die Bewegung eines Gewichts an einer Feder. Wenn das Gewicht im Verhältnis zur Stärke des Gewichts klein ist , werden Sie feststellen, dass das Hookesche Gesetz sehr gut funktioniert: wobei F Kraft, k Spannungskoeffizient und Δ x die Position des Gewichts ist .
Wenn Sie nun ein sehr schweres Gewicht aufsetzen oder das Gewicht zu stark verschieben, werden Abweichungen sichtbar: Bei ausreichend großen Abweichungen scheint die Bewegung vom linearen Modell abzuweichen. Sie könnten also versucht sein, die Ausreißer zu entfernen , um das lineare Modell zu verbessern. Dies wäre keine gute Idee, da das Modell nicht sehr gut funktioniert, da Hookes Gesetz nur annähernd richtig ist.Δx
UPDATE In Ihrem Fall würde ich vorschlagen, diese Datenpunkte zu ziehen und näher zu betrachten. Könnte es sich um ein Versagen des Laborgeräts handeln? Externe Störungen? Probendefekt? etc.
Versuchen Sie als nächstes herauszufinden, ob das Vorhandensein dieser Ausreißer mit dem korreliert werden kann, was Sie in dem von mir angegebenen Beispiel messen. Wenn es eine Korrelation gibt, gibt es keinen einfachen Weg, dies zu erreichen. Wenn keine Korrelation besteht, können Sie die Ausreißer entfernen
quelle
It is always a cheating to remove outliers to improve a regression model.
Betrachten Sie Spline-Regression als Betrug ? FWIW, es macht Down-Weight-Beobachtungen, um das [lokale] Regressionsmodell zu verbessern ~Ich wollte dies ursprünglich als Kommentar zu einer anderen Antwort posten, aber es wurde zu lang, um es zu passen.
Wenn ich mir Ihr Modell anschaue, muss es nicht unbedingt eine große Gruppe und einige Ausreißer enthalten. Meiner Meinung nach enthält es 1 mittelgroße Gruppe (1 bis -1) und dann 6 kleinere Gruppen, die sich jeweils zwischen 2 ganzen Zahlen befinden. Sie können ziemlich deutlich erkennen, dass bei Erreichen einer ganzen Zahl bei diesen Frequenzen weniger Beobachtungen auftreten. Der einzige spezielle Punkt ist 0, wo es keinen wirklich erkennbaren Rückgang der Beobachtungen gibt.
Meiner Meinung nach lohnt es sich zu untersuchen, warum diese Distribution so verbreitet ist:
Wenn Sie diskrete menschliche Handlungen messen, werden Sie immer Ausreißer haben. Es kann interessant sein zu sehen, warum diese Ausreißer nicht zu Ihrem Modell passen und wie sie verwendet werden können, um zukünftige Iterationen Ihres Modells zu verbessern.
quelle
Es gibt Vor- und Nachteile, Ausreißer zu entfernen und Modelle nur für "normale Muster" zu erstellen.
Vorteile: Die Modellleistung ist besser. Die Intuition ist, dass es sehr schwierig ist, EIN Modell zu verwenden, um sowohl "normales Muster" als auch "Ausreißermuster" zu erfassen. Also entfernen wir Ausreißer und sagen, wir bauen nur ein Modell für "normales Muster".
Nachteile: Wir können Ausreißer nicht vorhersagen. Mit anderen Worten: Nehmen wir an, wir stellen unser Modell in Produktion, dann fehlen einige Vorhersagen aus dem Modell
Ich würde vorschlagen, Ausreißer zu entfernen und das Modell zu erstellen, und wenn möglich, ein separates Modell nur für Ausreißer zu erstellen.
Wenn Sie für das Wort "Betrug" Papier schreiben und explizit auflisten, wie Sie Ausreißer definieren und entfernen, und die Erwähnung einer verbesserten Leistung sich nur auf die bereinigten Daten bezieht. Es betrügt nicht.
quelle
if it is fine to produce no output in production
das dasselbe? Wenn wir also damit beginnen, unser Modell in einer realen Anwendung zu verwenden, um die Ergebnisvariable zu testen und die vorhergesagte Punktzahl in der Anwendung zu verwenden, ist es nicht in Ordnung, Ausreißer zu entfernen (insbesondere, wenn es sich um viele handelt, wie Sie erwähnt haben)? Ist es das was du meintest?Ich halte es nur für sinnvoll, Ausreißer zu entfernen, wenn man einen soliden qualitativen Grund dafür hat. Damit meine ich, dass man Informationen hat, dass eine andere Variable, die nicht im Modell enthalten ist, die Ausreißer-Beobachtungen beeinflusst. Dann hat man die Wahl, den Ausreißer zu entfernen oder zusätzliche Variablen hinzuzufügen.
Wenn ich in meinem Datensatz Ausreißerbeobachtungen habe, erfahre ich durch Untersuchung, warum der Ausreißer existiert, mehr über meine Daten und mögliche andere zu berücksichtigende Modelle.
quelle
Ich bin nicht einmal davon überzeugt, dass sie "Ausreißer" sind. Vielleicht möchten Sie ein normales Wahrscheinlichkeitsdiagramm erstellen. Sind es Daten oder Residuen von der Anpassung eines Modells?
quelle