Derzeit verwende ich RF-Toolbox auf MATLAB für eine binäre Klassifizierung Problem
Datensatz: 50000 Stichproben und mehr als 250 Funktionen
Wie viele Bäume und zufällig ausgewählte Merkmale sollten bei jeder Teilung vorhanden sein, um die Bäume wachsen zu lassen? Kann ein anderer Parameter die Ergebnisse stark beeinflussen?
Anzahl der Bäume je größer, desto besser. Sie können mit diesem Parameter fast nicht überschwingen, aber die Obergrenze hängt natürlich von der Rechenzeit ab, die Sie für RF verwenden möchten.
Die gute Idee ist, zuerst eine lange Gesamtstruktur zu erstellen und dann zu sehen (ich hoffe, dass sie in der MATLAB-Implementierung verfügbar ist), wann die OOB-Genauigkeit konvergiert.
Anzahl der getesteten Attribute Die Standardeinstellung ist die Quadratwurzel der gesamten Anzahl von Attributen. In der Regel ist die Gesamtstruktur jedoch nicht sehr empfindlich für den Wert dieses Parameters. Tatsächlich wird sie nur selten optimiert, insbesondere, weil der stochastische Aspekt von RF größere Variationen hervorrufen kann.
quelle
Anzahl der Bäume je größer, desto besser: vereinbart.
Die Anzahl der getesteten Attribute hängt davon ab. Wenn Sie bereits im Vorhinein wissen, wie sich die Informationen unter den Funktionen verbreiten oder nicht. Wenn die Informationen von vielen Funktionen gemeinsam genutzt werden, erzielen Sie bessere Ergebnisse mit einem geringeren Wert dieses Parameters. Wenn nur wenige Features die Informationen enthalten, sollten Sie größere Werte verwenden. Mit anderen Worten, mit vielen relevanten Variablen: kleinere Werte sind besser und mit vielen irrelevanten Variablen: größere Werte sind besser.
quelle