Ich versuche, die Fähigkeit von Random Forest zu testen, Stichproben zwischen zwei Gruppen zu klassifizieren. Es gibt 54 Stichproben und eine unterschiedliche Anzahl von Variablen, die zur Klassifizierung verwendet werden.
Ich habe mich gefragt, warum die Out-of-Bag-Schätzungen (OOB) bis zu 5% voneinander abweichen können, selbst wenn ich 50.000 Bäume verwende. Ist dies etwas, bei dem Bootstrapping helfen könnte?
machine-learning
random-forest
Sethzard
quelle
quelle
Antworten:
Es gibt zwei Quellen für die OOB-Varianz. Eines ist die Zufälligkeit des Verfahrens selbst; Dies kann durch Erhöhen der Anzahl der Bäume verringert werden.
Die andere Quelle der Varianz ist die irreduzible Unvollkommenheit, begrenzte Daten zu haben und in einer komplexen Welt zu leben. Das Erhöhen der Anzahl der Bäume kann dies nicht beheben.
Außerdem gibt es manchmal einfach nicht genügend Daten, um das Problem zu lösen. Stellen Sie sich zum Beispiel vor, zwei Instanzen haben die entgegengesetzten Bezeichnungen, aber identische Merkmalswerte. Eine dieser Stichproben wird immer falsch klassifiziert. (Dies ist ein extremes Beispiel, zeigt jedoch, wie einige Probleme nicht behoben werden können. Wir können es etwas lockern, indem wir eine winzige Störung eines Vektors berücksichtigen. Jetzt wird es normalerweise genauso klassifiziert wie sein Zwilling, aber nicht immer.) Um dieses Problem zu lösen Sie müssten zusätzliche Messungen sammeln, um die beiden Punkte weiter zu unterscheiden.
Irreduzible Varianz kann nicht durch Bootstrapping behoben werden. Darüber hinaus sind zufällige Wälder bereits gebootet. Dies ist Teil des Grundes dafür, dass der Name "zufällig" enthält. (Der andere Grund ist, dass bei jeder Aufteilung eine zufällige Teilmenge von Merkmalen ausgewählt wird.)
quelle