Ich möchte eine zufällige Gesamtstruktur mit dem folgenden Verfahren erstellen:
- Erstellen Sie einen Baum aus zufälligen Stichproben der Daten und Features, und verwenden Sie dabei den Informationsgewinn, um die Aufteilung zu bestimmen
- Beenden Sie einen Blattknoten, wenn er eine vordefinierte Tiefe überschreitet, ODER wenn eine Teilung zu einer Blattanzahl führen würde, die unter einem vordefinierten Minimum liegt
- Anstatt jedem Baum eine Klassenbezeichnung zuzuweisen, weisen Sie den Anteil der Klassen im Blattknoten zu
- Stoppen Sie das Bauen von Bäumen, nachdem eine vordefinierte Anzahl erstellt wurde
Hierdurch wird der traditionelle Zufallswaldprozess auf zwei Arten gestört. Erstens werden beschnittene Bäume verwendet, die Proportionen anstelle von Klassenbeschriftungen zuweisen. Und zweitens ist das Stoppkriterium eine vorher festgelegte Anzahl von Bäumen und keine geschätzte Anzahl von Out-of-Bag-Fehlern.
Meine Frage lautet:
Kann ich für den obigen Prozess, der N Bäume ausgibt, ein Modell unter Verwendung der logistischen Regression mit LASSO-Auswahl anpassen? Hat jemand Erfahrung mit der Anpassung eines Random Forest-Klassifikators und der Nachbearbeitung mit logistic LASSO?
Das ISLE-Framework erwähnt die Verwendung von LASSO als Nachbearbeitungsschritt für Regressionsprobleme, jedoch nicht für Klassifizierungsprobleme. Außerdem erhalte ich beim Googeln von "Random Forest Lasso" keine hilfreichen Ergebnisse.
quelle
Antworten:
Das klingt ein bisschen nach Gradientenbaum-Boosting. Die Idee des Boostings besteht darin, die beste lineare Kombination einer Klasse von Modellen zu finden. Wenn wir einen Baum an die Daten anpassen, versuchen wir, den Baum zu finden, der die Ergebnisvariable am besten erklärt. Wenn wir stattdessen Boosten verwenden, versuchen wir, die beste lineare Baumkombination zu finden.
Mit Boosting sind wir jedoch ein bisschen effizienter, da wir keine Sammlung von zufälligen Bäumen haben, aber wir versuchen, neue Bäume zu bauen, die auf den Beispielen basieren, die wir noch nicht gut vorhersagen können.
Um mehr darüber zu erfahren, empfehle ich, Kapitel 10 der Elemente des statistischen Lernens zu lesen: http://statweb.stanford.edu/~tibs/ElemStatLearn/
Dies ist zwar keine vollständige Antwort auf Ihre Frage, aber ich hoffe, es hilft.
quelle