Zufällige Onlinewälder durch Hinzufügen weiterer einzelner Entscheidungsbäume

13

Ein Random Forest (RF) wird von einem Ensemble von Decision Trees (DT) erstellt. Durch die Verwendung von Bagging wird jeder DT in einer anderen Datenuntermenge trainiert. Gibt es also eine Möglichkeit, eine zufällige Online-Gesamtstruktur zu implementieren, indem neue Daten mit mehr Entscheidungsschwierigkeiten versehen werden?

Zum Beispiel haben wir 10K-Samples und trainieren 10 DTs. Dann erhalten wir 1K-Samples, und anstatt das gesamte RF erneut zu trainieren, fügen wir ein neues DT hinzu. Die Vorhersage wird jetzt durch den Bayesianischen Durchschnitt von 10 + 1 DT's gemacht.

Wenn wir alle vorherigen Daten behalten, können die neuen DTs außerdem hauptsächlich auf die neuen Daten trainiert werden, bei denen die Wahrscheinlichkeit der Stichprobenentnahme gewichtet wird, je nachdem, wie oft sie bereits entnommen wurden.

tashuhka
quelle

Antworten:

8

Zu diesem Thema gibt es kürzlich einen Artikel ( Online Random Forests ), der aus dem Bereich Computer Vision stammt. Hier ist eine Implementierung und eine Präsentation: Zufällige Online-Gesamtstrukturen in 10 Minuten

Emre
quelle
Die Implementierung, die Sie erwähnt haben, folgt einer Baumwachstumsstrategie wie Mondrian Forests ( arxiv.org/abs/1406.2673 ). Daher ist die Anzahl der Bäume konstant, während die Anzahl der Teilungen erhöht wird. Meine Frage konzentriert sich darauf, die Anzahl der Bäume für neue Proben zu erhöhen, während die zuvor trainierten Bäume unberührt bleiben.
Tashuhka
1
Wie das ? Wollen Sie nicht gegebenenfalls auch Bäume fallen lassen?
Emre
Vielen Dank. Dies ähnelt eher dem, wonach ich suche. In diesem Fall wird RF zur Merkmalsauswahl von zeitvarianten Signalen verwendet. Die konkrete Implementierung und Gültigkeit der Methode ist jedoch recht unklar. Wissen Sie, ob sie etwas veröffentlicht haben (Google hat nicht geholfen)?
Tashuhka
Danke für den Link! Ich kann sehen, dass sie tatsächlich alle vorherigen Bäume mit einer Baumwachstumsstrategie aktualisieren, und ich bin daran interessiert, neue DTs mit den neuen Daten zu erstellen, während die alten Bäume unberührt bleiben.
Tashuhka