Ein Random Forest (RF) wird von einem Ensemble von Decision Trees (DT) erstellt. Durch die Verwendung von Bagging wird jeder DT in einer anderen Datenuntermenge trainiert. Gibt es also eine Möglichkeit, eine zufällige Online-Gesamtstruktur zu implementieren, indem neue Daten mit mehr Entscheidungsschwierigkeiten versehen werden?
Zum Beispiel haben wir 10K-Samples und trainieren 10 DTs. Dann erhalten wir 1K-Samples, und anstatt das gesamte RF erneut zu trainieren, fügen wir ein neues DT hinzu. Die Vorhersage wird jetzt durch den Bayesianischen Durchschnitt von 10 + 1 DT's gemacht.
Wenn wir alle vorherigen Daten behalten, können die neuen DTs außerdem hauptsächlich auf die neuen Daten trainiert werden, bei denen die Wahrscheinlichkeit der Stichprobenentnahme gewichtet wird, je nachdem, wie oft sie bereits entnommen wurden.
quelle