Kann Friedmans Steigungsverstärkungsmaschine eine bessere Leistung erzielen als Breimans Random Forest ? Wenn ja, unter welchen Bedingungen oder mit welchen Daten kann gbm verbessert werden?
machine-learning
data-mining
random-forest
boosting
user22062
quelle
quelle
Antworten:
Im Folgenden wird erläutert, warum Boosting Random Forest in der Praxis im Allgemeinen übertrifft. Ich wäre jedoch sehr gespannt, welche anderen Faktoren Boostings Vorteil gegenüber RF in bestimmten Einstellungen erklären können.
Grundsätzlich kann RF im Rahmen von Fehler nur durch Reduzierung der Varianz reduzieren ( Hastie et al. 2009, S. 588). Die Verzerrung ist fest und entspricht der Verzerrung eines einzelnen Baums im Wald (daher die Notwendigkeit, sehr große Bäume zu züchten, die eine sehr geringe Verzerrung aufweisen).e r r o r = b i a s + v a r i a n c e
Auf der anderen Seite reduziert Boosting die Verzerrung (indem jeder neue Baum in der Sequenz hinzugefügt wird, sodass das erfasst wird, was vom vorhergehenden Baum übersehen wurde), aber auch die Varianz (indem viele Modelle kombiniert werden).
Boosting reduziert also Fehler an beiden Fronten, während RF Fehler nur durch Reduzieren der Varianz reduzieren kann. Natürlich kann es, wie gesagt, andere Erklärungen für die bessere Leistung von Boosting geben, die in der Praxis beobachtet werden. Zum Beispiel wird auf Seite 591 des oben genannten Buches gesagt, dass Boosting das RF-Problem bei verschachtelten Kugeln übertrifft, da in diesem speziellen Fall die wahre Entscheidungsgrenze additiv ist . (?) Sie berichten auch, dass Boosting die Spam- und kalifornischen Housing-Daten besser unterstützt als RF.
Caruana und Niculescu-Mizil 2006 sind eine weitere Referenz, die zu einer Outperformance von RF geführt hat . Leider melden sie die Ergebnisse, versuchen aber nicht zu erklären, was sie verursacht. Sie verglichen die beiden Klassifikatoren (und viele mehr) auf 11 binäre Klassifizierungsprobleme für 8 verschiedene Leistungsmetriken.
quelle
Wie bayerj es sagte, gibt es keine Möglichkeit, a priori zu wissen!
Random Forests sind relativ einfach zu kalibrieren: Standardparameter der meisten Implementierungen (z. B. R oder Python) erzielen hervorragende Ergebnisse.
Andererseits sind GBMs schwer abzustimmen (eine zu große Anzahl von Bäumen führt zu Überanpassung, die maximale Tiefe ist entscheidend, die Lernrate und die Anzahl der Bäume wirken zusammen ...) und länger zu trainieren (Multithread-Implementierungen sind rar). . Eine lose Abstimmung kann zu einer geringen Leistung führen.
Wenn Sie jedoch meiner Erfahrung nach genügend Zeit mit GBMs verbringen, erzielen Sie wahrscheinlich eine bessere Leistung als eine zufällige Gesamtstruktur.
quelle
A loosely performed tuning may lead to dramatic performance?
Vorsicht vor Fehlinterpretationen, denn Englischdramatic
bedeutet sehr gut, außergewöhnlich, phänomenal usw.! Ich denke, das ist das Gegenteil von dem, was Sie sagen wollten ... Haben Sie darüber hinaus eine Erklärung, warum sorgfältig abgestimmte GBMs die HF übertreffen? Dies ist im Grunde die Frage ...