NLP: Was sind einige beliebte Pakete für die Tokenisierung mit mehreren Wörtern?

Ich beabsichtige, eine Reihe von Stellenbeschreibungstexten zu kennzeichnen. Ich habe die Standard-Tokenisierung mit Leerzeichen als Trennzeichen versucht. Ich habe jedoch festgestellt, dass es einige Mehrwortausdrücke gibt, die durch Leerzeichen geteilt werden, was bei der nachfolgenden...