MCMC-Stichprobe des Entscheidungsbaumraums im Vergleich zur zufälligen Gesamtstruktur

11

Eine zufällige Gesamtstruktur ist eine Sammlung von Entscheidungsbäumen, die gebildet werden, indem nur bestimmte Merkmale zufällig ausgewählt werden, mit denen jeder Baum erstellt werden soll (und manchmal die Trainingsdaten eingesackt werden). Anscheinend lernen und verallgemeinern sie gut. Hat jemand eine MCMC-Stichprobe des Entscheidungsbaumraums erstellt oder diese mit zufälligen Wäldern verglichen? Ich weiß, dass es möglicherweise rechenintensiver ist, das MCMC auszuführen und alle abgetasteten Bäume zu speichern, aber ich interessiere mich für die theoretischen Merkmale dieses Modells, nicht für die Rechenkosten. Was ich meine ist so etwas:

  1. Erstellen Sie einen zufälligen Entscheidungsbaum (er würde wahrscheinlich eine schreckliche Leistung erbringen)
  2. Berechnen Sie die Wahrscheinlichkeit des Baums mit oder fügen Sie möglicherweise einen -Term hinzu.P.((T.ree|D.eintein)P.((D.eintein|T.ree)P.prichÖr((T.ree)
  3. Wählen Sie einen zufälligen Schritt, um den Baum zu ändern, und wählen Sie basierend auf der Wahrscheinlichkeit .P.((T.ree|D.eintein)
  4. Speichern Sie alle N Schritte eine Kopie des aktuellen Baums
  5. Gehen Sie für einige große N * M-Zeiten auf 3 zurück
  6. Verwenden Sie die Sammlung von M gespeicherten Bäumen, um Vorhersagen zu treffen

Würde dies eine ähnliche Leistung wie Random Forests ergeben? Beachten Sie, dass wir hier im Gegensatz zu zufälligen Gesamtstrukturen zu keinem Zeitpunkt gute Daten oder Funktionen wegwerfen.

grosse Bandbreite
quelle
2
Ich bin mir nicht sicher, ob dies genau die Art von Prozedur ist, die Sie skizzieren, aber es gibt BART . Hier ist ein Link zu einem PDF
joran

Antworten:

4

Leider haben Chipman et al. Extrahieren Sie in ihrem Bayes'schen CART-Ansatz nur den wahrscheinlichsten Baum. Sie haben nie versucht, über Bäume zu mitteln und die Leistung mit Random Forest und Extra-Trees zu vergleichen.

Ich habe gerade das BART-Papier von Chipman gelesen. Wenn ich das richtig verstehe, handelt es sich um eine Bayes'sche Mittelung von K Proben über eine Sammlung von m Bäumen. Es ist in vielerlei Hinsicht interessant und scheint wirklich gut zu funktionieren. Wenn m = '1' ist, ist es eine einfache Bayes'sche Mittelung von K Proben von 1 Baum, die vom posterioren kommen. Zu diesem speziellen Aspekt wurden jedoch nicht viele Tests durchgeführt. Und ich wäre immer noch daran interessiert zu wissen, wie sich Random Forest oder Extra-Trees mit dem echten Bayes-Modell vergleichen lassen.

Alex
quelle