Wie kann ich zufällige Effekte (oder wiederholte Messungen) in einen randomForest aufnehmen?

22

Ich bin mir nicht einmal sicher, ob die Frage wirklich Sinn macht, aber ich glaube, ich habe einige Titel von Artikeln gesehen, in denen zufällige Gesamtstrukturen mit zufälligen Effekten vorgeschlagen wurden. Ist das in R möglich?

mguzmann
quelle
1
Ja, das ergibt wenig Sinn. Was meinst du mit zufälligen Effekten?
Simone
Ich denke an etwas Ähnliches, wie Sie es mit der lmer-Funktion tun können, bei der Sie einen zufälligen Effekt als (1 | effect) einfügen können.
mguzmann
Das ist also ein simuliertes Tempern in einem zufälligen Wald? econpapers.repec.org/article/bpjjqsprt/… researchgate.net/publication/…
EngrStudent
2
Ich bin nicht ganz sicher, welche Art von Zufälligkeit die Methoden sind, nach denen Sie sich Adressen ansehen. Zufällige Wälder sind eine einfache Verbesserung gegenüber dem Absacken, indem der Baum dekorreliert wird. Der Grund, warum es "zufällig" genannt wird, ist die Tatsache, dass in jedem Fall, wenn eine Teilung in einem Baum betrachtet wird, der Teilungskandidat aus einer zufälligen Teilmenge m von etwa p Prädiktoren ausgewählt wird. Normalerweise m ~ sqrt (p). Und jedes Mal, wenn eine Teilung auftritt, wird eine zufällige Teilmenge von Prädiktoren ausgewählt, also eine zufällige Gesamtstruktur.
Psteelk

Antworten:

13

Sie werden normalerweise nicht zusammen verwendet, und vor dem Kombinieren sollten Sie vorsichtig sein.

Als Klassifikatoren werden normalerweise zufällige Gesamtstrukturen verwendet. Der Grund dafür, dass Sie eine zufällige Gesamtstruktur anstelle einer anderen Methode verwenden würden (z. B. K-Mittel-Clustering), ist, dass Sie möglicherweise eine große Anzahl von Dimensionen haben, nach denen Sie klassifizieren möchten. Das Problem mit der großen Anzahl von Dimensionen ist, dass Sie, wenn Sie alle Kombinationen von Dimensionsreihenfolgen testen möchten, eine große Anzahl von Auswahlmöglichkeiten haben (diese wächst schneller als die Anzahl der Dimensionsfaktoren).

Zufällige Effekte werden in der Regel bei der Regression mit wiederholten Messungen derselben Sache verwendet. Sie werden häufig in Modellen mit gemischten Effekten verwendet, bei denen sich der Begriff „gemischt“ sowohl auf feste als auch auf zufällige Effekte bezieht. Es wird angenommen, dass die festgelegten Effekte die Parameter darstellen, die Sie wieder sehen werden (z. B. ein Medikament oder das Alter einer Person). Es wird angenommen, dass die zufälligen Effekte eine Variabilität um einen Parameter darstellen, den Sie nicht mehr sehen werden (z. B. eine bestimmte Person).

Es gibt Beispiele, die sie zusammen verwenden, wenn Clusterdaten vorliegen: http://dx.doi.org/10.1080/00949655.2012.741599 und http://www2.ims.nus.edu.sg/Programs/014swclass/files/denis.pdf .

Mir sind keine R-Pakete bekannt, die diese Analyse durchführen können.

Bill Denney
quelle
2
Darüber hinaus teilen die Autoren dieser Arbeit Ihnen gerne den R-Code ihrer Implementierung mit. Einfach mailen. Das habe ich getan.
Dreistes Gleichgewicht
Ich habe Larocque kontaktiert, der sich an Hajjam gewandt hat und mir innerhalb weniger Tage eine E-Mail geschickt hat.
Dreistes Gleichgewicht
2
Gerechte Warnung, der verfügbare R-Code implementiert jedoch nur eine zufällige Gesamtstruktur für fortlaufende Daten. Sie müssen es erweitern, um mit kategorialen Daten umgehen zu können.
Dreistes Gleichgewicht
10

Ja, das ist möglich. Sie sollten " RE-EM-Bäume: Ein Data Mining-Ansatz für Längs- und Clusterdaten " und das zugehörige R-Paket REEMtree lesen .

Es ist schon eine Weile her, seit ich auf die Zeitung geschaut habe. Ich erinnere mich, dass die Autoren noch nicht versucht hatten, Ensembles dieser Bäume zu bilden, aber nichts deutete darauf hin, dass es nicht funktionieren würde.

Ben Ogorek
quelle
1
Bei REEMtree handelt es sich nicht um zufällige Effekte, die auf zufällige Wälder angewendet werden. Es wird auf die rekursive Partitionierung angewendet, die nur ein Teil dessen ist, was in ein zufälliges Gesamtstrukturmodell eingeht. Ich glaube nicht, dass diese Antwort eine höhere Punktzahl verdient als die von Bill Denney. Leider ist meine Zustimmung dazu gesperrt.
Dreistes Gleichgewicht
1
Komm schon, wenn du den Baum hast, wie schwer ist es, den Wald zu bauen? Und du bist willkommen.
Ben Ogorek
1
Nun, da zufällige Gesamtstrukturen das Bootstrap-Sampling ergänzen, die Anzahl der zufällig ausgewählten zu testenden Features anpassen, die Baumergebnisse aggregieren usw., benötigen wir einen zufälligen Effekt auf die zufälligen Gesamtstrukturvorhersagen und nicht auf die Vorhersagen einzelner Bäume Das Erweitern von REEMtree ist keine so gute Lösung wie das Lesen des zitierten Artikels Bill und das Anfordern des R-Codes von seinen Autoren.
Dreistes Gleichgewicht
8

Mixed Effects Random Forests (MERFs) sind eine Sache. Wie die Antwort oben zeigt, gibt es einige großartige Nachforschungen von Dr. Larocques Gruppe an der HEC Montreal. Das Papier ist hier: http://www.tandfonline.com/doi/abs/10.1080/00949655.2012.741599 .

Grundsätzlich ist es eine theoretisch sinnvolle Möglichkeit, die nichtlineare Modellierung zufälliger Wälder mit linearen Zufallseffekten zu kombinieren.

Wir haben gerade ein Open-Source-Paket in Python veröffentlicht , in dem MERF mithilfe des in diesem Artikel beschriebenen Algorithmus implementiert ist.

Wir haben einen detaillierten Blog-Beitrag über das Paket und seine Verwendung für Cluster-Datensätze geschrieben.

Sourav Dey
quelle
1
Überlegungen zur Implementierung in R oder zum Hinzufügen von Funktionen für partielle Abhängigkeitsdiagramme
Darstellung