Warum ist die von Breiman vorgeschlagene Metrik mit variabler Wichtigkeit nur für zufällige Wälder spezifisch?

8

Im Random Forest- Artikel beschreiben sie eine gute Möglichkeit, die Wichtigkeit einer Variablen zu messen: Nehmen Sie Ihre Validierungsdaten, messen Sie die Fehlerrate, permutieren Sie die Variable und messen Sie die Fehlerrate neu.

Frage - warum ist diese Methode spezifisch für zufällige Wälder? Ich verstehe, dass wir in anderen Klassifikatoren (SVM, LR usw.) das Konzept von OOB nicht haben, aber wir können sicherlich eine regelmäßige Aufteilung der Zugvalidierung verwenden.

Was fehlt mir hier? Warum ist diese Methode nicht üblich?

ihadanny
quelle
4
Faire Frage. Aus meiner Sicht kann jede überwachte Methode verpackt und VI zusammengelegt werden. Es kann teuer sein, 50 svm-Modelle zu trainieren. Für RF kommt das VI mit wenig zusätzlicher CPU-Zeit.
Soren Havelund Welling
1
@ SorenH.Welling - Ich denke dein Kommentar deutet an, was mir persönlich gefehlt hat. Ich dachte an variable Wichtigkeit als einen Skalar, den man mit einem einfachen dreifachen Mittelwert der X-Validierung ziemlich abschätzen kann. Breiman sieht es jedoch als eine Verteilung vor - erst nach ungefähr 50 X-Validierungen können Sie eine solche Verteilung haben, mit einer mittleren Bedeutung für jedes Merkmal und was noch wichtiger ist - einem p-Wert dafür. Dies ist etwas, das Sie nur von Random Forests leicht bekommen können. Sicherlich nicht für SVM oder einen anderen ausgefallenen betreuten Lernenden.
Ihadanny

Antworten:

3

Jeder eingesackte Lernende kann ein Analogon der Wichtigkeitsmetrik von Random Forests erstellen.

Diese Art von Feature-Wichtigkeit kann in einem gemeinsamen Kreuzvalidierungsschema nicht erreicht werden, bei dem alle Features ständig verwendet werden.

Firebug
quelle
0

Random Forrest und andere Techniken, die das Absacken beinhalten, verwenden die Tatsache, dass das Bootstrap-Beispiel, das für den aktuellen Baum gezeichnet wird, einige Datenpunkte ausschließt, die sogenannten Out-Of-Bag-Beispiele (OOB). Da diese Beispiele nicht zum Erstellen des aktuellen Baums verwendet werden, können sie zum Bewerten verwendet werden, ohne dass das Risiko einer Überanpassung besteht. Bei anderen überwachten Lerntechniken, die normalerweise weniger unter Instabilität leiden als Entscheidungsbäume (z. B. SVM), zeichnen Sie normalerweise keine Bootstrap-Beispiele und können daher die variable Bedeutung auf diese Weise nicht abschätzen.

Der Ansatz, ein Modell mit verschiedenen Teilmengen von Variablen zu trainieren und deren Leistung mithilfe der k-fachen Kreuzvalidierung zu bewerten, ist jedoch ebenfalls vollkommen gültig und wird in der Literatur als Wrapper-Ansatz bezeichnet. Eine beliebte Methode zur Merkmalsauswahl bei SVM ist beispielsweise die rekursive Beseitigung von Merkmalen (siehe https://pdfs.semanticscholar.org/fb6b/4b57f431a0cfbb83bb2af8beab4ee694e94c.pdf ).

dkoehn
quelle