Unterschied zwischen zufälligen Wäldern und extrem zufälligen Bäumen

38

Ich habe verstanden, dass Random Forest und Extrem Randomized Trees sich dahingehend unterscheiden, dass die Aufteilung der Bäume im Random Forest deterministisch ist, wohingegen sie im Fall von Extrem Randomized Trees zufällig ist (genauer gesagt, die nächste Aufteilung ist die beste Aufteilung) unter zufälligen gleichmäßigen Aufteilungen in den ausgewählten Variablen für den aktuellen Baum). Aber ich verstehe die Auswirkungen dieser unterschiedlichen Spaltungen in verschiedenen Situationen nicht vollständig.

  • Wie vergleichen sie sich in Bezug auf Voreingenommenheit / Varianz?
  • Wie vergleichen sie bei Vorhandensein irrelevanter Variablen?
  • Wie vergleichen sie in Gegenwart von korrelierten Variablen?
RUser4512
quelle
2
(a) ERT kann manchmal aufgrund weniger optimaler Teilungen stärker verzerrt sein / ERT verringert manchmal die Varianz aufgrund einer weiteren Dekorrelation von Bäumen; (b) Ich denke dasselbe, nicht sicher; (c) Ich denke dasselbe, nicht sicher. Extra: Ich würde die Aufteilung von RF nicht als deterministisch bezeichnen, da es sich um Zufallsvariablen handelt, und die Bäume sind natürlich auch nicht durch Bootstrapping bedingt.
Soren Havelund Welling
Was ist ein uniform split?
octavian

Antworten:

27

Die Extra- (Randomized) -Trees (ET) Artikel enthält eine Bias-Varianz - Analyse. Auf Seite 16 sehen Sie einen Vergleich mit mehreren Methoden, einschließlich RF, für sechs Tests (Baumklassifizierung und drei Regressionen).

Beide Methoden sind in etwa gleich, wobei die ET bei einer hohen Anzahl von verrauschten Merkmalen (in hochdimensionalen Datensätzen) etwas schlechter ist.

Vorausgesetzt, die (möglicherweise manuelle) Funktionsauswahl ist nahezu optimal, die Leistung ist in etwa gleich, die ETs können jedoch rechnerisch schneller sein.

Aus dem Artikel selbst:

Die Analyse des Algorithmus und die Ermittlung des optimalen Wertes von K an mehreren Testproblemvarianten hat gezeigt, dass der Wert prinzipiell von problemspezifischen Besonderheiten, insbesondere dem Anteil irrelevanter Attribute, abhängig ist . [...] Die Bias / Varianz-Analyse hat gezeigt, dass Extra-Trees die Varianz verringern und gleichzeitig die Bias erhöhen . [...] Wenn die Randomisierung über das optimale Niveau angehoben wird, nimmt die Varianz geringfügig ab, während die Verzerrung häufig erheblich zunimmt.

Keine Silberkugel wie immer.


Pierre Geurts, Damien Ernst, Louis Wehenke. "Extrem randomisierte Bäume"

Shuriken x blau
quelle
2
Gibt es (empirische oder theoretische) Hinweise darauf, dass ET bei einer hohen Anzahl von verrauschten Merkmalen etwas schlechter ist? Oder basiert dies auf Erfahrung?
Ramhiser
1
Meiner Erfahrung nach ist das Gegenteil der Fall: Extra-Trees sind mit vielen lauten Funktionen besser geeignet. Mit der Einschränkung, dass Sie eine große Gesamtstruktur haben müssen (viele Schätzer, n_Estimatoren in sklearn) und die Anzahl der bei jedem Split berücksichtigten Features (max_Features in sklearn) anpassen müssen, damit dies funktioniert. Ein einzelner Extra-Baum passt mehr als ein einzelner zufälliger Waldbaum, aber wenn Sie viele Extra-Bäume haben, passen sie sich auf unterschiedliche Weise an und nicht an. Ich bekomme oft erhebliche Verbesserungen bis zu 3000 Schätzern.
denson
3

Die Antwort ist, dass es darauf ankommt. Ich schlage vor, Sie probieren sowohl zufällige Wälder als auch zusätzliche Bäume für Ihr Problem aus. Probieren Sie einen großen Wald aus (1000 - 3000 Bäume / Schätzer, n_Stimatoren in sklearn) und stimmen Sie die Anzahl der bei jeder Aufteilung berücksichtigten Merkmale (max_features in sklearn) sowie die minimalen Stichproben pro Aufteilung (min_samples_split in sklearn) und die maximale Baumtiefe ( max_depth in sklearn). Das heißt, Sie sollten bedenken, dass Over-Tuning eine Form der Überanpassung sein kann.

Hier sind zwei Probleme, an denen ich persönlich gearbeitet habe, als sich zusätzliche Bäume mit sehr verrauschten Daten als nützlich erwiesen haben:

Entscheidungswälder für die maschinelle Lernklassifizierung von großen, lauten Meeresboden-Feature-Sets

Eine effiziente Vorhersage verteilter Proteinstörungen mit geklebten Proben

denson
quelle
2

Vielen Dank für die Antworten! Da ich noch Fragen hatte, führte ich einige numerische Simulationen durch, um mehr über das Verhalten dieser beiden Methoden zu erfahren.

  • Zusätzliche Bäume scheinen bei lauten Features eine höhere Leistung zu erzielen.

Das folgende Bild zeigt die Leistung (mit Kreuzvalidierung bewertet), wenn zufällige Spalten, die für das Ziel irrelevant sind, zum Datensatz hinzugefügt werden. Das Ziel ist nur eine lineare Kombination der ersten drei Spalten. Zufälliger Wald gegen zusätzliche Bäume in Gegenwart irrelevanter Variablen

  • Wenn alle Variablen relevant sind, scheinen beide Methoden die gleiche Leistung zu erzielen.

  • Zusätzliche Bäume scheinen dreimal schneller zu sein als die zufällige Gesamtstruktur (zumindest in der Implementierung von Scikit Learn).

Quellen

Link zum vollständigen Artikel: Zufälliger Wald gegen zusätzliche Bäume .

RUser4512
quelle