Ich habe verstanden, dass Random Forest und Extrem Randomized Trees sich dahingehend unterscheiden, dass die Aufteilung der Bäume im Random Forest deterministisch ist, wohingegen sie im Fall von Extrem Randomized Trees zufällig ist (genauer gesagt, die nächste Aufteilung ist die beste Aufteilung) unter zufälligen gleichmäßigen Aufteilungen in den ausgewählten Variablen für den aktuellen Baum). Aber ich verstehe die Auswirkungen dieser unterschiedlichen Spaltungen in verschiedenen Situationen nicht vollständig.
- Wie vergleichen sie sich in Bezug auf Voreingenommenheit / Varianz?
- Wie vergleichen sie bei Vorhandensein irrelevanter Variablen?
- Wie vergleichen sie in Gegenwart von korrelierten Variablen?
machine-learning
correlation
references
random-forest
RUser4512
quelle
quelle
uniform split
?Antworten:
Die Extra- (Randomized) -Trees (ET) Artikel enthält eine Bias-Varianz - Analyse. Auf Seite 16 sehen Sie einen Vergleich mit mehreren Methoden, einschließlich RF, für sechs Tests (Baumklassifizierung und drei Regressionen).
Beide Methoden sind in etwa gleich, wobei die ET bei einer hohen Anzahl von verrauschten Merkmalen (in hochdimensionalen Datensätzen) etwas schlechter ist.
Vorausgesetzt, die (möglicherweise manuelle) Funktionsauswahl ist nahezu optimal, die Leistung ist in etwa gleich, die ETs können jedoch rechnerisch schneller sein.
Aus dem Artikel selbst:
Keine Silberkugel wie immer.
Pierre Geurts, Damien Ernst, Louis Wehenke. "Extrem randomisierte Bäume"
quelle
Die Antwort ist, dass es darauf ankommt. Ich schlage vor, Sie probieren sowohl zufällige Wälder als auch zusätzliche Bäume für Ihr Problem aus. Probieren Sie einen großen Wald aus (1000 - 3000 Bäume / Schätzer, n_Stimatoren in sklearn) und stimmen Sie die Anzahl der bei jeder Aufteilung berücksichtigten Merkmale (max_features in sklearn) sowie die minimalen Stichproben pro Aufteilung (min_samples_split in sklearn) und die maximale Baumtiefe ( max_depth in sklearn). Das heißt, Sie sollten bedenken, dass Over-Tuning eine Form der Überanpassung sein kann.
Hier sind zwei Probleme, an denen ich persönlich gearbeitet habe, als sich zusätzliche Bäume mit sehr verrauschten Daten als nützlich erwiesen haben:
Entscheidungswälder für die maschinelle Lernklassifizierung von großen, lauten Meeresboden-Feature-Sets
Eine effiziente Vorhersage verteilter Proteinstörungen mit geklebten Proben
quelle
Vielen Dank für die Antworten! Da ich noch Fragen hatte, führte ich einige numerische Simulationen durch, um mehr über das Verhalten dieser beiden Methoden zu erfahren.
Das folgende Bild zeigt die Leistung (mit Kreuzvalidierung bewertet), wenn zufällige Spalten, die für das Ziel irrelevant sind, zum Datensatz hinzugefügt werden. Das Ziel ist nur eine lineare Kombination der ersten drei Spalten.
Wenn alle Variablen relevant sind, scheinen beide Methoden die gleiche Leistung zu erzielen.
Zusätzliche Bäume scheinen dreimal schneller zu sein als die zufällige Gesamtstruktur (zumindest in der Implementierung von Scikit Learn).
Quellen
Link zum vollständigen Artikel: Zufälliger Wald gegen zusätzliche Bäume .
quelle