Mein Verständnis ist, dass die zufällige Gesamtstruktur zufällig ausgewählte Variablen auswählt , um jeden Entscheidungsbaum zu erstellen. Wenn also mtry = ncol / 3 ist, wird jede Variable durchschnittlich in 1/3 der Bäume verwendet. Und 2/3 der Bäume werden sie nicht benutzen.
Aber was ist, wenn ich weiß, dass eine einzelne Variable wahrscheinlich sehr wichtig ist? Wäre es sinnvoll, die Wahrscheinlichkeit, dass diese Variable in jedem Baum ausgewählt wird, manuell zu erhöhen? Ist es mit dem randomForest-Paket in R machbar?
quelle
Seit Juni 2015 hat ein neuer vielversprechender RF-Algorithmus auf R-CRAN namens "Ranger" diese Funktion. Es wurde mit split.select.weights optimiert : "Numerischer Vektor mit Gewichten zwischen 0 und 1, der die Wahrscheinlichkeit darstellt, Variablen zum Teilen auszuwählen."
quelle