Ich habe versucht, Feature-Wichtigkeiten aus zufälligen Wäldern zu verwenden, um eine empirische Feature-Auswahl für ein Regressionsproblem durchzuführen, bei dem alle Features kategorisch sind und viele von ihnen viele Ebenen haben (in der Größenordnung von 100-1000). Da bei der One-Hot-Codierung für jede Ebene eine Dummy-Variable erstellt wird, gelten die Feature-Wichtigkeiten für jede Ebene und nicht für jedes Feature (Spalte). Was ist ein guter Weg, um diese Funktionsbedeutungen zusammenzufassen?
Ich habe darüber nachgedacht, die durchschnittliche Bedeutung für alle Ebenen eines Features zu summieren oder zu ermitteln (wahrscheinlich wird die erstere auf Features mit mehr Ebenen ausgerichtet sein). Gibt es Referenzen zu diesem Thema?
Was kann man noch tun, um die Anzahl der Funktionen zu verringern? Ich bin mir der Gruppe Lasso bewusst, konnte nichts leichtes zum Scikit-Lernen finden.
Antworten:
Es hängt davon ab, wie Sie sie mit einem Hot-Coding codieren. Viele automatisierte Lösungen dafür benennen alle konvertierten Booleschen Werte mit einem Muster, sodass eine kategoriale Variable namens "Buchstabe" mit den Werten AZ wie folgt enden würde:
Buchstabe_A, Buchstabe_B, Buchstabe_C, Buchstabe_D, ....
Wenn Sie, nachdem Sie die Wichtigkeit von Merkmalen herausgefunden haben, ein Array von Merkmalen und das zugehörige Gewicht / die damit verbundene Wichtigkeit haben, würde ich das Array analysieren und möglicherweise die Gewichte der Merkmalswichtigkeiten für alles zusammenfassen, was mit "Buchstabe%" beginnt.
quelle