Danke für eine sehr gute Frage! Ich werde versuchen, meine Intuition dahinter zu geben.
Um dies zu verstehen, müssen Sie die "Zutaten" des zufälligen Waldklassifikators berücksichtigen (es gibt einige Modifikationen, aber dies ist die allgemeine Pipeline):
- Bei jedem Schritt der Erstellung eines individuellen Baums finden wir die beste Aufteilung der Daten
- Beim Erstellen eines Baums verwenden wir nicht den gesamten Datensatz, sondern das Bootstrap-Beispiel
- Wir aggregieren die einzelnen Baumausgaben durch Mittelwertbildung (tatsächlich bedeutet 2 und 3 zusammen ein allgemeineres Absackverfahren ).
Angenommen, erster Punkt. Es ist nicht immer möglich, die beste Aufteilung zu finden. Zum Beispiel wird in dem folgenden Datensatz jede Aufteilung genau ein falsch klassifiziertes Objekt ergeben.
Und ich denke, dass genau dieser Punkt verwirrend sein kann: In der Tat ist das Verhalten der einzelnen Teilung dem Verhalten des Naive Bayes-Klassifikators ähnlich: Wenn die Variablen abhängig sind, gibt es keine bessere Teilung für Entscheidungsbäume, und auch der Naive Bayes-Klassifikator schlägt fehl (Zur Erinnerung: Unabhängige Variablen sind die Hauptannahme, die wir im Naive Bayes-Klassifikator treffen. Alle anderen Annahmen stammen aus dem von uns gewählten Wahrscheinlichkeitsmodell.)
Aber hier kommt der große Vorteil von Entscheidungsbäumen: nehmen wir jede Spaltung und weiterhin Spaltung weiter. Und für die folgenden Splits finden wir eine perfekte Trennung (in rot).
Und da wir kein probabilistisches Modell haben, sondern nur eine binäre Aufteilung, müssen wir überhaupt keine Annahme treffen.
Das war etwa Decision Tree, aber es gilt auch für Random Forest. Der Unterschied besteht darin, dass wir für Random Forest die Bootstrap-Aggregation verwenden. Es gibt kein Modell darunter, und die einzige Annahme, auf die es sich stützt, ist, dass die Stichprobe repräsentativ ist . Dies ist jedoch normalerweise eine weit verbreitete Annahme. Wenn beispielsweise eine Klasse aus zwei Komponenten besteht und in unserem Datensatz eine Komponente durch 100 Stichproben und eine andere Komponente durch 1 Stichprobe dargestellt wird, wird in den meisten einzelnen Entscheidungsbäumen wahrscheinlich nur die erste Komponente angezeigt, und in Random Forest wird die zweite falsch klassifiziert .
Hoffe, es wird etwas mehr Verständnis geben.