Ich denke, in der Originalarbeit schlagen sie vor, ) zu verwenden, aber so oder so lautet die Idee wie folgt:Log2( N+ 1
Die Anzahl der zufällig ausgewählten Merkmale kann den Generalisierungsfehler auf zwei Arten beeinflussen: Die Auswahl vieler Merkmale erhöht die Stärke der einzelnen Bäume, während die Verringerung der Anzahl der Merkmale zu einer geringeren Korrelation zwischen den Bäumen führt und die Stärke des Gesamtwaldes erhöht.
Interessant ist, dass die Autoren von Random Forests (pdf) einen empirischen Unterschied zwischen Klassifikation und Regression feststellen:
Ein interessanter Unterschied zwischen Regression und Klassifikation besteht darin, dass die Korrelation mit zunehmender Anzahl verwendeter Merkmale recht langsam zunimmt.
N/ 3N--√
N--√LogN
Der Zwischenbereich ist normalerweise groß. In diesem Bereich nimmt die Korrelation mit zunehmender Anzahl von Merkmalen zu, aber PE * (Baum) kompensiert durch Verringern.
(PE * ist der Generalisierungsfehler)
Wie sie in Elementen des statistischen Lernens sagen:
In der Praxis hängen die besten Werte für diese Parameter vom Problem ab und sollten als Optimierungsparameter behandelt werden.
Eine Sache, von der Ihr Problem abhängen kann, ist die Anzahl der kategorialen Variablen. Wenn Sie viele kategoriale Variablen haben, die als Dummy-Variablen codiert sind, ist es normalerweise sinnvoll, den Parameter zu erhöhen. Nochmals aus dem Random Forests-Artikel:
i n t ( l o g2M+ 1 )