Steigung, die Baum gegen gelegentlichen Wald auflädt

110

Die von Friedman vorgeschlagene Gradientenbaumverstärkung verwendet Entscheidungsbäume als Basislerner. Ich frage mich, ob wir den Basisentscheidungsbaum so komplex wie möglich (ausgewachsen) oder einfacher gestalten sollen. Gibt es eine Erklärung für die Wahl?

Random Forest ist eine weitere Ensemblemethode, bei der Entscheidungsbäume als Basislerner verwendet werden. Nach meinem Verständnis verwenden wir im Allgemeinen die fast ausgewachsenen Entscheidungsbäume in jeder Iteration. Habe ich recht?

FihopZz
quelle
1
Eine weitere sehr gute Referenz für geboosterte Bäume finden Sie hier: xgboost.readthedocs.io/en/latest/model.html
Naghmeh
@Naghmeh - Dead Link; scheint zu xgboost.readthedocs.io/en/latest/tutorials/model.html
mlibby

Antworten:

149

error = bias + variance

  • Boosting basiert auf schwachen Lernenden (hohe Tendenz, geringe Varianz). In Bezug auf Entscheidungsbäume sind schwache Lernende flache Bäume, manchmal sogar so klein wie Entscheidungsstümpfe (Bäume mit zwei Blättern). Durch Boosting wird der Fehler hauptsächlich durch Verringern der Verzerrung (und in gewissem Maße auch der Varianz, indem die Ausgabe vieler Modelle aggregiert wird) verringert.
  • Andererseits verwendet Random Forest, wie Sie sagten, ausgewachsene Entscheidungsbäume (geringe Abweichung, hohe Varianz). Die Aufgabe der Fehlerreduzierung wird auf die entgegengesetzte Weise gelöst: durch Reduzieren der Varianz. Die Bäume werden unkorreliert gemacht, um die Varianzabnahme zu maximieren, aber der Algorithmus kann die Verzerrung nicht reduzieren (die geringfügig höher ist als die Verzerrung eines einzelnen Baums in der Gesamtstruktur). Daher die Notwendigkeit für große, unbeschnittene Bäume, damit die Vorspannung anfangs so gering wie möglich ist.

Bitte beachten Sie, dass RF im Gegensatz zu Boosting (sequentiell) Bäume parallel wachsen lässt . Der von iterativeIhnen verwendete Begriff ist daher unangemessen.

Antoine
quelle
1
"Die Bäume werden unkorreliert gemacht, um die Varianzabnahme zu maximieren, aber der Algorithmus kann die Verzerrung (die geringfügig höher ist als die Verzerrung eines einzelnen Baums im Wald) nicht reduzieren" - der Teil ungefähr "geringfügig höher als die Verzerrung eines einzelnen Baum im Wald "scheint falsch. Siehe web.stanford.edu/~hastie/Papers/ESLII.pdf, Abschnitt 15.4.2: "Wie beim Einsacken ist die Abweichung eines zufälligen Waldes dieselbe wie die Abweichung eines der einzelnen Bäume in der Stichprobe." Vielleicht meinen Sie "etwas höher als die Neigung eines einzelnen ausgewachsenen Baums, der zu den ursprünglichen Daten passt"?
Adrian
1
@gung Ich denke, es gibt eine Schlüsselfrage, die in OP unbeantwortet bleibt: Warum nicht einen ausgewachsenen Baum im 1. Schritt von GBM verwenden? Warum ist es besser, eine Sequenz von schwachen Lernenden zu verwenden als einen einzigen ausgewachsenen Baum? Ich bin neugierig darauf
ftxx
55

Diese Frage wird in diesem sehr schönen Beitrag angesprochen. Bitte sehen Sie es sich und die darin enthaltenen Referenzen an. http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/

Beachten Sie in dem Artikel, dass der über Kalibrierung spricht und auf einen anderen (netten) Blog-Beitrag darüber verweist. Dennoch finde ich, dass Sie in dem Artikel Erhalten kalibrierter Wahrscheinlichkeiten durch Boosting besser verstehen, was Kalibrierung im Kontext von Boosted-Klassifikatoren ist und welche Standardmethoden dies sind.

Und schließlich fehlt ein Aspekt (etwas theoretischer). Sowohl RF als auch GBM sind Ensemble-Methoden, dh Sie bauen einen Klassifikator aus einer großen Anzahl kleinerer Klassifikatoren auf. Der grundlegende Unterschied liegt nun in der verwendeten Methode:

  1. RF verwendet Entscheidungsbäume, die sehr anfällig für Überanpassungen sind. Um eine höhere Genauigkeit zu erzielen, beschließt RF, eine große Anzahl von ihnen auf der Grundlage des Absackens zu erstellen . Die Grundidee besteht darin, die Daten immer wieder neu abzutasten und für jeden Probenzug einen neuen Klassifikator zu verwenden. Verschiedene Klassifikatoren passen die Daten auf unterschiedliche Weise an, und durch Abstimmung werden diese Unterschiede herausgemittelt.
  2. GBM ist eine Boosting-Methode, die auf schwachen Klassifikatoren aufbaut . Die Idee ist, jeweils einen Klassifikator hinzuzufügen, damit der nächste Klassifikator trainiert wird, um das bereits trainierte Ensemble zu verbessern. Beachten Sie, dass der Klassifikator für jede RF-Iteration unabhängig vom Rest trainiert wird.
jpmuc
quelle
3
Wäre es eine faire Schlussfolgerung aus Ihrer Antwort, dass RF mehr als GBM übertrifft?
8.
4
@ 8vierzig Ich würde diese Schlussfolgerung nicht ziehen - während ein einzelner Baum in RF mehr als ein einzelner Baum in GBM überpasst (weil diese viel kleiner sind), wird in RF dieser Overfit bei der Verwendung vieler Bäume im Durchschnitt berechnet, während in GBM Je mehr Bäume Sie hinzufügen, desto höher ist das Risiko einer Überanpassung. Kurz gesagt, da N (Anzahl der verwendeten Bäume) unendlich ist, erwarte ich, dass RF viel weniger als GBM
Ant am