Ich verwende den Random Forest-Algorithmus als robusten Klassifikator für zwei Gruppen in einer Microarray-Studie mit Tausenden von Features.
- Was ist der beste Weg, um die zufällige Gesamtstruktur so darzustellen, dass genügend Informationen vorhanden sind, um sie in einem Papier reproduzierbar zu machen?
- Gibt es eine Plotmethode in R, um den Baum tatsächlich zu plotten, wenn es eine kleine Anzahl von Features gibt?
- Ist die OOB-Schätzung der Fehlerrate die beste zu zitierende Statistik?
r
machine-learning
classification
random-forest
microarray
Danielsbrewer
quelle
quelle
Antworten:
Um es reproduzierbar zu machen, ist es am besten , reproduzierbare Recherchen (dh Code und Daten) zusammen mit dem Papier bereitzustellen . Stellen Sie es auf Ihrer Website oder auf einer Hosting-Site (wie github) zur Verfügung.
In Bezug auf die Visualisierung hat Leo Breiman einige interessante Arbeiten dazu geleistet (siehe seine Homepage , insbesondere den Abschnitt zu Grafiken ).
Wenn Sie jedoch R verwenden, enthält das
randomForest
Paket einige nützliche Funktionen:Und
Ich kenne keine einfache Möglichkeit, einen Baum tatsächlich zu zeichnen, aber Sie können die
getTree
Funktion verwenden, um den Baum abzurufen und diesen separat zu zeichnen.Die Präsentation von Strobl / Zeileis zum Thema "Warum und wie man zufällige waldvariable Wichtigkeitsmaße verwendet (und wie man das nicht sollte)" enthält Beispiele von Bäumen, die auf diese Weise erzeugt worden sein müssen. Dieser Blog-Beitrag zu Baummodellen enthält einige schöne Beispiele für CART-Baumdiagramme, die Sie beispielsweise verwenden können.
Wie @chl bemerkte, ist ein einzelner Baum in diesem Zusammenhang nicht besonders aussagekräftig. Wenn ich ihn nicht zur Erklärung eines zufälligen Waldes verwende, würde ich ihn nicht in ein Papier aufnehmen.
quelle
plot.randomForest
Zeigt, wie sich der OOB-Fehler und der OOB-Fehler in der Klasse mit zunehmender Anzahl von Bäumen entwickelt haben.varImpPlot
Zeigt die Attribut-Wichtigkeitsmaße für die oberen Attribute undMDSplot
alle Objekte an, die auf der 2D-Projektion des RF-Objektnäherungsmaßes aufgezeichnet sind.MDSplot()
Funktion. Ich muss zugeben, dass ich häufig RFs verwende, um Gruppen von Personen hervorzuheben (basierend auf dem RF-Näherungsmaß), anstatt die besten Merkmale auszuwählen. Kliniker lesen solche Diagramme oft sehr leicht als Punktdiagramme von var. Bedeutung ...quelle
Beachten Sie, dass die Vorbehalte in den anderen Antworten zur Handlung unbedingt von Bedeutung sind. Wenn Sie jedoch eine Handlung zu illustrativen / pädagogischen Zwecken wünschen, kann der folgende Ausschnitt von R nützlich sein. Es ist nicht schwer, dem Kantentext bei Bedarf einen "Trennpunkt" hinzuzufügen.
quelle