Warum wird für zufällige Waldbäume kein Schnitt benötigt?

20

Breiman sagt, dass die Bäume ohne Beschneiden gewachsen sind. Warum? Ich will damit sagen, dass es einen soliden Grund geben muss, warum die Bäume in zufälligen Wäldern nicht beschnitten werden. Andererseits wird es als sehr wichtig angesehen, einen einzelnen Entscheidungsbaum zu beschneiden, um eine Überanpassung zu vermeiden. Gibt es aus diesem Grund Literatur zum Lesen? Natürlich sind die Bäume möglicherweise nicht korreliert, aber es besteht immer noch die Möglichkeit einer Überanpassung.

Z Khan
quelle
Sie müssen hier wirklich mehr über den Kontext sagen. @ ChrisA. hat einen bemerkenswerten Versuch unternommen, aber es ist schwer zu wissen, ob Ihre Frage wirklich beantwortet wurde, da es schwierig ist, viel über Ihr Problem zu wissen.
gung - Reinstate Monica
2
Was muss noch gesagt werden? Die Frage ist sehr klar.
Seanosapien

Antworten:

20

Grob gesagt wird ein Teil der potenziellen Überanpassung, die bei einem einzelnen Baum auftreten kann (was ein Grund ist, warum Sie generell beschneiden), durch zwei Dinge in einem Zufallswald gemildert:

  1. Die Tatsache, dass die zum Trainieren der einzelnen Bäume verwendeten Samples "bootstrapped" sind.
  2. Die Tatsache, dass Sie eine Vielzahl zufälliger Bäume haben, die zufällige Merkmale verwenden, und somit die einzelnen Bäume stark sind, aber nicht so miteinander korrelieren.

Bearbeiten: basierend auf dem Kommentar von OP unten:

Es besteht definitiv noch Überanpassungspotential. In Bezug auf Artikel können Sie die Motivation für das "Absacken" von Breiman und das "Bootstrapping" im Allgemeinen von Efron und Tibshirani nachlesen. Bis 2. hat Brieman einen locker gebundenen Generalisierungsfehler abgeleitet, der mit der Baumstärke und der Antikorrelation der einzelnen Klassifikatoren zusammenhängt. Niemand verwendet die Schranke (höchstwahrscheinlich), aber sie soll eine Vorstellung davon geben, was bei Ensemble-Methoden bei niedrigen Generalisierungsfehlern hilft. Dies ist im Random Forests-Artikel selbst beschrieben. Mein Beitrag war es, Sie auf der Grundlage dieser Messwerte und meiner Erfahrungen / Schlussfolgerungen in die richtige Richtung zu lenken.

  • Breiman, L., Bagging Predictors, Machine Learning, 24 (2), S. 123-140, 1996.
  • Efron, B .; Tibshirani, R. (1993). Eine Einführung in den Bootstrap. Boca Raton, FL
  • Breiman, Leo (2001). "Zufällige Wälder". Maschinelles Lernen 45 (1): 5–32.
Chris A.
quelle
Trotzdem besteht die Möglichkeit einer Überanpassung. Können Sie einen Artikel zitieren, um diesen zu lesen?
Z Khan
@Z Khan Bist du vielleicht auch dieser Z Khan ? Wenn ja, lassen Sie es uns bitte wissen, damit wir Ihre Konten zusammenführen können.
whuber
3
@ZKhan Das Problem der Überanpassung bei RFs wird in Hastie et al. (2009), Elements of Statistical Learning, 2nd Edition, behandelt . Auf der Website steht ein kostenloses PDF für das Buch zur Verfügung. Lesen Sie das Kapitel über zufällige Wälder.
Setzen Sie Monica - G. Simpson