Zufälliger Wald: Klassenspezifische Merkmalsbedeutung

7

Ich benutze das bigrfR-Paket, um einen Datensatz mit ca. zu analysieren. 50.000 Beobachtungen x 120 Variablen, klassifiziert in zwei Gruppen.

Nachdem ich einen Wald mit 1000 Bäumen gezüchtet habe, untersuche ich die Bedeutung und Beziehung der 120 Merkmale in Bezug auf die beiden Klassen mit den Funktionen fastimpund interactions, die sehr schöne Ergebnisse liefern.

Jetzt bin ich jedoch daran interessiert, das Problem mit 3 (oder mehr) statt 2 Klassen zu untersuchen. In diesem Fall fastimpbezieht sich die von berechnete Bedeutung der Gini-Variablen nur auf die Gesamtbedeutung.

Meine Frage ist: Gibt es eine Möglichkeit, eine klassenspezifische Bedeutung der Gini-Variablen oder ein ähnliches Maß zu berechnen?

Missdeutung
quelle
siehe diesen verwandten Thread auf SO. Bitte lassen Sie mich wissen, wenn Sie die Lösung finden.
Antoine

Antworten:

-1

Es gibt mehrere Möglichkeiten, dies zu tun

1) Visualisierung - Sie können die Häufigkeit / Häufigkeit jedes ausgewählten Features in jeder Gruppe als Balkendiagramm darstellen. Ich gehe davon aus, dass das Top-Feature in einer Gruppe im Vergleich zu den anderen Gruppen visuell häufiger vorkommt.

2) Vollständige Methode - Erstellen Sie 3 Random Forest-Modelle auf jedem Paar von zwei Etiketten. Ordnen Sie die Merkmale in jeder Kombination ein und zeichnen Sie schließlich das Ergebnis auf und prüfen Sie, ob die Gini-Werte für Merkmal x in beiden Kombinationen höher sind.

user4581
quelle
Ich hätte gerne gehört, warum meine Antwort herabgestuft wurde. Ich kann immer aktualisieren und Antworten hinzufügen.
user4581