Es ist schon eine Weile her, dass ich mir das Teilen von Bäumen angesehen habe. Als ich das letzte Mal so etwas gemacht habe, mag ich Party in R (erstellt von Hothorn). Die Idee der bedingten Folgerung durch Stichproben ist für mich sinnvoll. Aber rpart hatte auch Anklang.
In der aktuellen Anwendung (ich kann keine Details angeben, aber es geht darum zu bestimmen, wer unter einer großen Stichprobe von Festgenommenen ins Gefängnis kommt) kann ich keine fortgeschrittenen Methoden wie zufällige Wälder, Absacken, Boosten usw. anwenden - ich brauche eine leicht erklärbare Regel.
Ich möchte auch eine manuelle Kontrolle darüber haben, welche Knoten aufgeteilt werden, wie in Zhang & Singer (2010) Recursive Partitioning and Applications empfohlen . Die mit diesem Buch gelieferte Freeware erlaubt dies, ist aber ansonsten eher primitiv in der Benutzereingabe.
Irgendwelche Empfehlungen oder Vorschläge?
quelle
[NB: Siehe Update 1 unten.] Ich finde, dass die Methodik für
rpart
viel einfacher zu erklären ist alsparty
. Letzteres ist jedoch weitaus ausgefeilter und bietet wahrscheinlich bessere Modelle. Die Art, wie ich es manchmal erkläre,party
ist, davon als Grundlage für die Herstellung lokaler linearer (oder GLM) Modelle zu sprechen. Ich baue darauf auf, indem ich darauf hinweise, dass die Ergebnisse fürrpart
alle Elemente, die in den Blattknoten fallen, dh die durch die Teilungen begrenzte Box / Region, konstant sind. Selbst wenn es Verbesserungen über lokale Modelle geben sollte, erhalten Sie nur eine konstante Vorhersage.Im Gegensatz dazu werden
party
die Splits entwickelt, um potenziell die Modelle für die Regionen zu optimieren. Tatsächlich werden andere Kriterien als die Modelloptimalität verwendet, aber Sie müssen Ihre eigene Fähigkeit zur Erklärung des Unterschieds messen, um zu bestimmen, ob Sie ihn gut erklären können. Die Papiere für sie recht zugänglich für Forscher sind, kann aber durchaus für jemanden nicht bereit , eine Herausforderung werden , zu prüfen , einfachere Methoden wie zufällige Wälder, die Förderung usw. Mathematisch denke ich , dassparty
anspruchsvollere ist ... Trotzdem CART Modelle sind leichter zu Sowohl methodisch als auch in Bezug auf die Ergebnisse zu erläutern, und diese bieten einen guten Ansatz für die Einführung komplexerer baumbasierter Modelle.Kurz gesagt, ich würde sagen, dass Sie
rpart
für Klarheitparty
sorgen müssen und Sie können für Genauigkeit / Leistung verwenden, aber ich würde nicht vorstellen,party
ohne einzuführenrpart
.Update 1. Ich habe meine Antwort auf mein Verständnis von
party
vor ein oder zwei Jahren gestützt . Es ist ziemlich erwachsen geworden, aber ich würde meine Antwort dahingehend ändern, dass ich esrpart
aufgrund seiner Kürze und seines Vermächtnisses immer noch empfehlen würde , sollte "unkonventionell" ein wichtiges Kriterium für Ihren Kunden / Mitarbeiter sein. Dennoch würde ich versuchen, mit mehr Funktionalität von zu migrierenparty
, nachdem ich jemanden vorgestellt haberpart
. Es ist besser, klein anzufangen, mit Verlustfunktionen, Aufteilungskriterien usw. in einem einfachen Kontext, bevor Sie ein Paket und eine Methodik einführen, die weitaus komplexere Konzepte beinhalten.quelle
party
Paket tun kann. Die reineparty
Funktion macht gerade einen einzelnen einfachen Baum wierpart
mit Mehrheitsabstimmung in den Blättern. Diemob
Funktion inparty
ist, was Bäume mit komplexeren Modellen in den Blättern baut (und die Teilungen basierend auf Parameterinstabilität auswählt.)mob
oder ob der Rest des Pakets ziemlich gewachsen ist - ich erinnere mich beispielsweise nicht, dass ich vorher zufällige Wälder gesehen habe. Ich werde meine Antwort überarbeiten ...ctree
darum, einen einzelnen Baumcforest
zu formen, einen zufälligen Waldmob
zu formen und modellbasierte Blätter zu formen. Und fyi, Wald macht Spaß, ist aber fürchterlich langsam vorherzusagen.mob
ich war von Anfang an dabei oderctree
bin zumindest danach gekommen , nehme ich an. Es gibt es seit 2009 oder früher. Jedenfalls zeigt sich nur, dass wir alle auf SE etwas Neues lernen können. :)