Ich habe viele Artikel gefunden, die besagen, dass Boosting-Methoden empfindlich gegenüber Ausreißern sind, aber keinen Artikel, der erklärt, warum.
Meiner Erfahrung nach sind Ausreißer für jeden Algorithmus für maschinelles Lernen schlecht, aber warum werden Boosting-Methoden als besonders empfindlich eingestuft?
Wie würden die folgenden Algorithmen in Bezug auf die Empfindlichkeit gegenüber Ausreißern eingestuft: Boost-Tree, zufällige Gesamtstruktur, neuronales Netzwerk, SVM und einfache Regressionsmethoden wie die logistische Regression?
Antworten:
Ausreißer können schlecht für das Boosten sein, da das Boosten jeden Baum auf den Residuen / Fehlern der vorherigen Bäume aufbaut. Ausreißer haben viel größere Residuen als Nicht-Ausreißer, so dass die Gradientenverstärkung einen unverhältnismäßig großen Teil ihrer Aufmerksamkeit auf diese Punkte lenkt.
quelle
Die von Ihnen angegebenen Algorithmen dienen der Klassifizierung. Ich gehe also davon aus, dass Sie in der Zielvariablen keine Ausreißer meinen, sondern Ausreißer von Eingabevariablen. Boosted Tree-Methoden sollten für Ausreißer in den Eingabe-Features ziemlich robust sein, da die Basis-Lernenden Baumaufteilungen sind. Wenn der Split beispielsweise
x > 3
5 und 5.000.000 beträgt, werden diese gleich behandelt. Dies kann eine gute Sache sein oder auch nicht, aber das ist eine andere Frage.Wenn Sie stattdessen über Regression und Ausreißer in der Zielvariablen sprechen , hängt die Empfindlichkeit der Methoden für verstärkte Bäume von der verwendeten Kostenfunktion ab. Natürlich ist der quadratische Fehler empfindlich gegenüber Ausreißern, da die Differenz quadratisch ist und dies den nächsten Baum stark beeinflusst, da das Anheben versucht, den (Gradienten des) Verlusts anzupassen. Es gibt jedoch robustere Fehlerfunktionen, die für verstärkte Baummethoden wie Huber-Verlust und Absolutverlust verwendet werden können.
quelle
Beim Boosten versuchen wir, den Datensatz auszuwählen, für den die Algorithmusergebnisse schlecht waren, anstatt die Teilmenge der Daten zufällig auszuwählen. Diese harten Beispiele sind wichtig zu lernen. Wenn der Datensatz also viele Ausreißer enthält und der Algorithmus bei diesen nicht gut abschneidet, versucht der Algorithmus, diese harten Beispiele zu lernen, um Teilmengen mit diesen Beispielen auszuwählen.
quelle