Warum ist die Boosting-Methode empfindlich gegenüber Ausreißern?

12

Ich habe viele Artikel gefunden, die besagen, dass Boosting-Methoden empfindlich gegenüber Ausreißern sind, aber keinen Artikel, der erklärt, warum.

Meiner Erfahrung nach sind Ausreißer für jeden Algorithmus für maschinelles Lernen schlecht, aber warum werden Boosting-Methoden als besonders empfindlich eingestuft?

Wie würden die folgenden Algorithmen in Bezug auf die Empfindlichkeit gegenüber Ausreißern eingestuft: Boost-Tree, zufällige Gesamtstruktur, neuronales Netzwerk, SVM und einfache Regressionsmethoden wie die logistische Regression?

lserlohn
quelle
1
Ich habe bearbeitet, um zu versuchen, zu verdeutlichen (auch wenn Sie Leerzeichen am Anfang einer Zeile einfügen, behandelt stackexchange sie als Code). Nach deinem zweiten Absatz ist Boosten so was? Möglicherweise müssen Sie die Empfindlichkeit definieren.
Jeremy Miles
1
Auch Ausreißer und Rauschen sind nicht dasselbe.
Jeremy Miles
Ich würde diese Frage noch nicht als gelöst markieren. Es ist nicht klar, ob das Boosten tatsächlich stärker unter Ausreißern leidet als andere Methoden oder nicht. Es scheint, dass die akzeptierte Antwort hauptsächlich aufgrund von Bestätigungsvoreingenommenheit akzeptiert wurde.
Machen Sie den
Können Sie bitte einige dieser Artikel teilen?
ACNALB

Antworten:

11

Ausreißer können schlecht für das Boosten sein, da das Boosten jeden Baum auf den Residuen / Fehlern der vorherigen Bäume aufbaut. Ausreißer haben viel größere Residuen als Nicht-Ausreißer, so dass die Gradientenverstärkung einen unverhältnismäßig großen Teil ihrer Aufmerksamkeit auf diese Punkte lenkt.

Ryan Zotti
quelle
2
Es ist besser, wenn Sie dem OP mehr mathematische Details geben können!
Metariat
5
@Matemattica Ich bin nicht einverstanden, dass das Hinzufügen mathematischer Details hier für zusätzliche Klarheit sorgt. Es wäre nur ein Symbol für Baumverläufe und eine Lernrate für nachfolgende Bäume.
Ryan Zotti
1
@ RyanZotti: Ich stimme dem Metariat zu. Eine formalere Notation würde einige Verwirrung auflösen. Zum Beispiel meinen Sie im Satz "Ausreißer haben viel größere Residuen als Nicht-Ausreißer" die Residuen für was? Das geschätzte oder das wahre Modell? Wenn das erstere zutrifft, ist es im Allgemeinen nicht wahr und wenn das letztere, ist es irrelevant.
User603
1

Die von Ihnen angegebenen Algorithmen dienen der Klassifizierung. Ich gehe also davon aus, dass Sie in der Zielvariablen keine Ausreißer meinen, sondern Ausreißer von Eingabevariablen. Boosted Tree-Methoden sollten für Ausreißer in den Eingabe-Features ziemlich robust sein, da die Basis-Lernenden Baumaufteilungen sind. Wenn der Split beispielsweise x > 35 und 5.000.000 beträgt, werden diese gleich behandelt. Dies kann eine gute Sache sein oder auch nicht, aber das ist eine andere Frage.

Wenn Sie stattdessen über Regression und Ausreißer in der Zielvariablen sprechen , hängt die Empfindlichkeit der Methoden für verstärkte Bäume von der verwendeten Kostenfunktion ab. Natürlich ist der quadratische Fehler empfindlich gegenüber Ausreißern, da die Differenz quadratisch ist und dies den nächsten Baum stark beeinflusst, da das Anheben versucht, den (Gradienten des) Verlusts anzupassen. Es gibt jedoch robustere Fehlerfunktionen, die für verstärkte Baummethoden wie Huber-Verlust und Absolutverlust verwendet werden können.

ZakJ
quelle
0

Beim Boosten versuchen wir, den Datensatz auszuwählen, für den die Algorithmusergebnisse schlecht waren, anstatt die Teilmenge der Daten zufällig auszuwählen. Diese harten Beispiele sind wichtig zu lernen. Wenn der Datensatz also viele Ausreißer enthält und der Algorithmus bei diesen nicht gut abschneidet, versucht der Algorithmus, diese harten Beispiele zu lernen, um Teilmengen mit diesen Beispielen auszuwählen.

Waleed Sial
quelle