Was sollten die optimalen Parameter für den Random Forest-Klassifikator sein?

14

Derzeit verwende ich RF-Toolbox auf MATLAB für eine binäre Klassifizierung Problem

Datensatz: 50000 Stichproben und mehr als 250 Funktionen

Wie viele Bäume und zufällig ausgewählte Merkmale sollten bei jeder Teilung vorhanden sein, um die Bäume wachsen zu lassen? Kann ein anderer Parameter die Ergebnisse stark beeinflussen?

Rizwan
quelle

Antworten:

8

Wählen Sie eine große Anzahl Bäume aus, sagen wir 100. Wählen Sie aus dem, was ich im Internet gelesen habe zufällig ausgewählte Features. Inder Originalarbeit verwendeteBreiman jedoch ungefähr die nächste Ganzzahl, um M zu protokollieren250 .LogMLog2

Ich würde sagen, Kreuzvalidierung ist normalerweise der Schlüssel zum Finden optimaler Parameter, aber ich weiß nicht genug über zufällige Wälder.

Wok
quelle
1+Log2M
Danke, ich habe den Link aktualisiert. Jetzt geht es direkt nach Berkeley.
Wok
12

Anzahl der Bäume je größer, desto besser. Sie können mit diesem Parameter fast nicht überschwingen, aber die Obergrenze hängt natürlich von der Rechenzeit ab, die Sie für RF verwenden möchten.
Die gute Idee ist, zuerst eine lange Gesamtstruktur zu erstellen und dann zu sehen (ich hoffe, dass sie in der MATLAB-Implementierung verfügbar ist), wann die OOB-Genauigkeit konvergiert.

Anzahl der getesteten Attribute Die Standardeinstellung ist die Quadratwurzel der gesamten Anzahl von Attributen. In der Regel ist die Gesamtstruktur jedoch nicht sehr empfindlich für den Wert dieses Parameters. Tatsächlich wird sie nur selten optimiert, insbesondere, weil der stochastische Aspekt von RF größere Variationen hervorrufen kann.


quelle
7

Anzahl der Bäume je größer, desto besser: vereinbart.

Die Anzahl der getesteten Attribute hängt davon ab. Wenn Sie bereits im Vorhinein wissen, wie sich die Informationen unter den Funktionen verbreiten oder nicht. Wenn die Informationen von vielen Funktionen gemeinsam genutzt werden, erzielen Sie bessere Ergebnisse mit einem geringeren Wert dieses Parameters. Wenn nur wenige Features die Informationen enthalten, sollten Sie größere Werte verwenden. Mit anderen Worten, mit vielen relevanten Variablen: kleinere Werte sind besser und mit vielen irrelevanten Variablen: größere Werte sind besser.

0asa
quelle
1
Obwohl Ihre Behauptung über die Anzahl der getesteten Attribute sinnvoll ist, haben Sie ein Zitat dafür?
James Owers
Ich würde empfehlen, diese These zu lesen: github.com/glouppe/phd-thesis sowie diese: orbi.ulg.ac.be/handle/2268/25737
0asa