Wie verwenden wir eine Hot-Codierung, wenn die Anzahl der Werte, die eine kategoriale Variable annehmen kann, groß ist?
In meinem Fall sind es 56 Werte. Wie üblich müsste ich dem Trainingsdatensatz 56 Spalten (56 Binärmerkmale) hinzufügen, was die Komplexität und damit die Trainingszeit immens erhöht.
Wie gehen wir mit solchen Fällen um?
Antworten:
Wenn Sie sich wirklich für die Anzahl der Dimensionen interessieren, können Sie dennoch versuchen, einen Algorithmus zur Dimensionsreduzierung wie PCA (Hauptkomponentenanalyse) oder LDA (Lineare Diskriminanzanalyse) nach Ihrer einzigen heißen Codierung anzuwenden.
Aber wissen Sie, dass "56 Funktionen" nicht wirklich groß sind und es in der Branche weit verbreitet ist, Tausende, Millionen oder sogar Milliarden von Funktionen zu haben.
quelle
Sie können versuchen, die Dimmension der 56 resultierenden Dummy-Features zu reduzieren, wenn Sie einige Kategorien haben, die im Vergleich zur Mehrheit einen kleinen Anteil darstellen, indem Sie sie gleich kennzeichnen.
quelle
Wenn es eine große Anzahl von kategorialen Variablen gibt, ist es ratsam, eine gegen Ruhe zu machen.
quelle