Bedeutung der XGBoost-Funktion - Verstärkung und Abdeckung sind hoch, aber die Frequenz ist niedrig

8

Ich habe diese Frage gelesen: Wie interpretiere ich die Ausgabe von XGBoost wichtig? Informationen zu den drei verschiedenen Arten von Feature-Wichtigkeiten: Häufigkeit (in Python XGBoost als "Gewicht" bezeichnet), Verstärkung und Deckung.

In meinem Fall habe ich eine Funktion, Geschlecht, die basierend auf der Frequenzmetrik eine sehr geringe Bedeutung hat, aber bei weitem die wichtigste Funktion ist, die sowohl auf der Verstärkungs- als auch auf der Deckungsmetrik basiert.

Ich weiß, dass das Geschlecht für das, was ich vorhersage, wichtig sein sollte. Wenn ich nur das Geschlecht gegen das Ziel zeichne, besteht eine klare Korrelation. Ich bin nicht überrascht, dass es das wichtigste Merkmal ist. Ich möchte nur wissen, warum es aufgrund der Frequenzmetrik nicht als wichtiges Merkmal angesehen wird.

Vic
quelle

Antworten:

8

Ich möchte nur wissen, warum es aufgrund der Frequenzmetrik nicht als wichtiges Merkmal angesehen wird.

Höchstwahrscheinlich weist das variable Geschlecht im Vergleich zu anderen Prädiktoren in Ihrem Datensatz eine viel geringere Anzahl möglicher Werte auf (häufig nur zwei: männlich / weiblich oder 0/1, je nach Darstellung).

Wenn das Geschlecht in Ihrem Fall nur binär ist, bedeutet dies, dass es höchstens einmal in jedem Baum verwendet werden kann, während das Alter beispielsweise auf verschiedenen Ebenen der Bäume viel häufiger auftritt.

aivanov
quelle