Ich habe verschiedene (scheinbar) widersprüchliche Aussagen darüber gelesen, ob AdaBoost (oder andere Boosting-Techniken) im Vergleich zu anderen Lernmethoden weniger oder anfälliger für Überanpassungen sind.
Gibt es gute Gründe, den einen oder anderen zu glauben? Wenn es darauf ankommt, wovon hängt es ab? Was sind die Gründe, warum AdaBoost weniger / mehr zur Überanpassung neigt?
machine-learning
boosting
blubb
quelle
quelle
caret
zu sichern , aber Sie können das Paket zur Kreuzvalidierung von Adaboost verwenden, und ich habe festgestellt, dass es in der Regel gut verallgemeinert ist.Antworten:
Wie Sie sagen, wurde viel über diese Angelegenheit diskutiert, und es gibt eine ziemlich schwere Theorie, die damit einherging, dass ich zugeben muss, dass ich sie nie vollständig verstanden habe. Nach meiner praktischen Erfahrung ist AdaBoost ziemlich robust gegen Überanpassung und LPBoost (Linear Programming Boosting) umso mehr (weil die Zielfunktion eine spärliche Kombination schwacher Lernender erfordert, was eine Form der Kapazitätssteuerung darstellt). Die Hauptfaktoren, die es beeinflussen, sind:
Die "Stärke" der "schwachen" Lernenden: Wenn Sie sehr einfache schwache Lernende wie Entscheidungsstümpfe (einstufige Entscheidungsbäume) verwenden, sind die Algorithmen viel weniger anfällig für Überanpassung. Wann immer ich versucht habe, kompliziertere schwache Lernende (wie Entscheidungsbäume oder sogar Hyperebenen) zu verwenden, habe ich festgestellt, dass die Überanpassung viel schneller erfolgt
Der Geräuschpegel in den Daten: AdaBoost ist besonders anfällig für Überanpassungen bei verrauschten Datensätzen. In dieser Einstellung sind die regulierten Formulare (RegBoost, AdaBoostReg, LPBoost, QPBoost) vorzuziehen
Die Dimensionalität der Daten: Wir wissen, dass es im Allgemeinen zu einer stärkeren Überanpassung in hochdimensionalen Räumen kommt ("der Fluch der Dimensionalität"), und AdaBoost kann in dieser Hinsicht ebenfalls darunter leiden, da es sich lediglich um eine lineare Kombination von Klassifikatoren handelt, die selbst darunter leiden vom problem. Ob es so anfällig ist wie andere Klassifikatoren, ist schwer zu bestimmen.
quelle
Ich stimme mit den meisten Punkten überein, die im tdc-Kommentar erwähnt wurden. Ich muss jedoch einige Dinge hinzufügen und korrigieren.
quelle