Ich habe Daten mit einigen tausend Features und möchte eine rekursive Feature-Auswahl (RFE) durchführen, um nicht informative zu entfernen. Ich mache das mit Caret und RFE. Ich begann jedoch zu überlegen, wann ich die Parameterabstimmung ( mtry
für RF) durchführen soll, wenn ich die beste Regressionsanpassung erhalten möchte (z. B. zufällige Gesamtstruktur). Das heißt, wie ich verstehe, trainiert Caret wiederholt RF auf verschiedenen Feature-Subsets mit einem festen Mtry. Ich nehme an, das Optimum mtry
sollte gefunden werden, nachdem die Merkmalsauswahl abgeschlossen ist. Wird der von Caret verwendete mtry
Wert die ausgewählte Teilmenge von Merkmalen beeinflussen? Die Verwendung von Caret mit Low ist natürlich viel schneller.mtry
Hoffe jemand kann mir das erklären.
Antworten:
Eine Sache, die Sie vielleicht untersuchen möchten, sind regulierte zufällige Gesamtstrukturen, die speziell für die Auswahl von Features entwickelt wurden. In diesem Artikel wird das Konzept erläutert und wie sie sich von normalen zufälligen Wäldern unterscheiden
Funktionsauswahl über regulierte Bäume
Es gibt auch ein CRAN-Paket RRF , das auf randomForest aufbaut und es Ihnen ermöglicht, sie einfach in R zu implementieren. Ich hatte selbst viel Glück mit dieser Methode.
In Bezug auf Ihre erste Frage kann ich nur raten, dass Sie bei großer Kollinearität kleinere Baumgrößen verwenden müssen. Dies ermöglicht es dem Algorithmus, die Wichtigkeit mit weniger Interferenz durch Kollinearitätseffekte zu bestimmen.
quelle
Möglicherweise können Sie Folgendes verwenden
caretFuncs
:Man kann auch das
valSelRF
Paket überprüfen . Ich bin mir nicht sicher, wie es sich von demregularized random forest
hier erwähnten unterscheidet .quelle