Warum verbessert sich die OOB-Schätzung für zufällige Gesamtstrukturen, wenn die Anzahl der ausgewählten Features verringert wird?

14

Ich wende einen zufälligen Gesamtstrukturalgorithmus als Klassifikator auf ein Microarray-Dataset an, das in zwei bekannte Gruppen mit Tausenden von Features aufgeteilt ist. Nach dem ersten Start schaue ich mir die Wichtigkeit der Features an und starte den Tree-Algorithmus erneut mit den wichtigsten Features 5, 10 und 20. Ich finde, dass für alle Features, Top 10 und 20, die OOB-Schätzung der Fehlerrate 1,19% beträgt, während sie für die Top 5-Features 0% beträgt. Dies scheint mir kontraintuitiv zu sein, daher habe ich mich gefragt, ob Sie erklären können, ob mir etwas fehlt oder ob ich die falsche Metrik verwende.

Ich benutze das randomForest-Paket in R mit ntree = 1000, node size = 1 und mtry = sqrt (n)

Danielsbrewer
quelle
2
Um es klar auszudrücken: Wenden Sie RFs iterativ an, indem Sie die am besten bewerteten Features (gemäß Gini-Index oder Verringerung der MSE) aus dem gesamten Eingabebereich auswählen? Ich weiß, dass RFs mit zunehmender Anzahl der Bäume nicht unbedingt besser werden, aber was Sie darstellen, scheint sinnvoll zu sein (die besten Funktionen ermöglichen es, die OOB-Stichproben mit 100% iger Genauigkeit vorherzusagen), obwohl bei dieser Vorgehensweise eindeutig die Gefahr einer Überanpassung besteht .
Chl
Ja , das ist , was ich tue
danielsbrewer
2
@chl, könntest du erklären, warum die Gefahr einer Überanpassung besteht, wenn du nur 5 Funktionen verwendest?
Tashuhka

Antworten:

15

Dies ist eine Überanpassung der Funktionsauswahl und dies ist ziemlich bekannt - siehe Ambroise & McLachlan 2002 . Das Problem basiert auf den Tatsachen, dass RF zu intelligent und die Anzahl der Objekte zu gering ist. Im letzteren Fall ist es im Allgemeinen ziemlich einfach, ein Attribut nach dem Zufallsprinzip zu erstellen, das möglicherweise eine gute Korrelation mit der Entscheidung aufweist. Und wenn die Anzahl der Attribute groß ist, können Sie sicher sein, dass einige von völlig irrelevanten ein sehr guter Prädiktor sind, sogar genug, um einen Cluster zu bilden, der in der Lage ist, die Entscheidung zu 100% wiederherzustellen, insbesondere wenn die enorme Flexibilität von RF wird berücksichtigt. Daher wird deutlich, dass die FS-Prozedur diesen Cluster findet, wenn sie angewiesen wird, die bestmögliche Teilmenge von Attributen zu finden.
Eine Lösung (CV) finden Sie in A & McL. Sie können auch unsere Herangehensweise an das Thema testenBoruta-Algorithmus , der die Menge im Grunde genommen um "Schattenattribute" erweitert, die vom Design her zufällig sind, und ihre HF-Wichtigkeit damit vergleicht, damit echte Attribute beurteilen können, welche von ihnen tatsächlich zufällig sind und entfernt werden können; Dies wird viele Male wiederholt, um signifikant zu sein. Boruta ist eher für eine etwas andere Aufgabe gedacht, aber soweit meine Tests gezeigt haben, ist das resultierende Set frei von FS-Überanpassungsproblemen.


quelle
2

Ich dachte, ich würde eine intuitive Erklärung für dieses Muster hinzufügen.

In jedem Entscheidungsbaum, der die zufällige Gesamtstruktur enthält, werden die Daten iterativ entlang einzelner Dimensionen aufgeteilt. Entscheidend ist, dass diese Prozedur beinhaltet

1) unter Berücksichtigung nur einer kleinen zufällig ausgewählten Teilmenge aller erklärenden Variablen, und

2) Auswählen der am stärksten assoziierten erklärenden Variablen innerhalb dieser zufällig ausgewählten Variablenteilmenge , um die Daten entlang aufzuteilen.

Daher nimmt die Wahrscheinlichkeit ab, dass die n wichtigsten Variablen an einem bestimmten Knoten ausgewählt werden, wenn die Anzahl der erklärenden Variablen zunimmt. Wenn man also eine große Anzahl von Variablen hinzufügt, die wenig bis gar keine Erklärungskraft haben, führt dies automatisch zu einer Erhöhung der Fehlerrate in der Gesamtstruktur. Umgekehrt führt die Auswahl der wichtigsten Variablen für die Einbeziehung sehr wahrscheinlich zu einer Verringerung der Fehlerquote.

Zufällige Gesamtstrukturen sind sehr robust und erfordern normalerweise eine sehr große Addition dieser "Rausch" -Parameter, um die Leistung erheblich zu verringern.

mkt - Setzen Sie Monica wieder ein
quelle