Wie viele Features sollen mit Random Forests getestet werden?

Ich denke, in der Originalarbeit schlagen sie vor, ) zu verwenden, aber so oder so lautet die Idee wie folgt: $\log_2(N +1$

Die Anzahl der zufällig ausgewählten Merkmale kann den Generalisierungsfehler auf zwei Arten beeinflussen: Die Auswahl vieler Merkmale erhöht die Stärke der einzelnen Bäume, während die Verringerung der Anzahl der Merkmale zu einer geringeren Korrelation zwischen den Bäumen führt und die Stärke des Gesamtwaldes erhöht.

Interessant ist, dass die Autoren von Random Forests (pdf) einen empirischen Unterschied zwischen Klassifikation und Regression feststellen:

Ein interessanter Unterschied zwischen Regression und Klassifikation besteht darin, dass die Korrelation mit zunehmender Anzahl verwendeter Merkmale recht langsam zunimmt.

$N/3$ $\sqrt N$

$\sqrt N$ $\log N$

Der Zwischenbereich ist normalerweise groß. In diesem Bereich nimmt die Korrelation mit zunehmender Anzahl von Merkmalen zu, aber PE * (Baum) kompensiert durch Verringern.

(PE * ist der Generalisierungsfehler)

Wie sie in Elementen des statistischen Lernens sagen:

In der Praxis hängen die besten Werte für diese Parameter vom Problem ab und sollten als Optimierungsparameter behandelt werden.

Eine Sache, von der Ihr Problem abhängen kann, ist die Anzahl der kategorialen Variablen. Wenn Sie viele kategoriale Variablen haben, die als Dummy-Variablen codiert sind, ist es normalerweise sinnvoll, den Parameter zu erhöhen. Nochmals aus dem Random Forests-Artikel:

$int(log_2M+1)$

oW_
quelle

Danke, das ist eine sehr nützliche Antwort. In der Tat dachte ich, dass es etwas mit der Stärke eines jeden Baumes im Vergleich zur Stärke des Waldes als Ganzes zu tun hat. Und in der Tat sehr interessant, dass es einen solchen Unterschied zwischen Regression und Klassifikation gibt. Vielen Dank, dass Sie das Originalpapier verlinkt haben. Ich habe versucht, solche Papiere für viele Techniken zu sammeln.

Valentin Calomme

Wie viele Features sollen mit Random Forests getestet werden?

Antworten: