Ich habe über beide Techniken gelesen, um die Wurzel des Wortes zu finden, aber wie ziehen wir eine der anderen vor?
Ist "Lemmatisierung" immer besser als "Stemming"?
quelle
Ich habe über beide Techniken gelesen, um die Wurzel des Wortes zu finden, aber wie ziehen wir eine der anderen vor?
Ist "Lemmatisierung" immer besser als "Stemming"?
Ich würde sagen, dass Lemmatisierung im Allgemeinen der bevorzugte Weg ist, verwandte Wörter auf eine gemeinsame Basis zu reduzieren.
Diese Quora-Frage ist eine gute Ressource zu diesem Thema: Ist es ratsam, Lemmatisierung anstelle von Stemming in NLP zu wählen? Die Top-Antwort zitiert eine weitere gute Ressource, die motiviert, warum Lemmatisierung normalerweise besser ist: Stemming und Lemmatisierung von Stanford NLP:
Warum Lemmatisierung besser ist
Stemming bezieht sich normalerweise auf einen groben heuristischen Prozess, der die Enden von Wörtern abhackt, in der Hoffnung, dieses Ziel die meiste Zeit korrekt zu erreichen, und häufig das Entfernen von Ableitungs-Affixen einschließt.
Lemmatisierung bezieht sich normalerweise darauf, Dinge unter Verwendung eines Vokabulars und einer morphologischen Analyse von Wörtern richtig zu machen, wobei normalerweise nur darauf abzielt, Flexionsenden zu entfernen und die Basis- oder Wörterbuchform eines Wortes zurückzugeben, die als Lemma bekannt ist.
Aber das ist nur allgemein, es ist nicht immer besser. Stemming hat noch einige Vorteile und hängt vom Anwendungsfall ab. Einige Gründe, warum Sie Stemming anstelle von Lemmatisierung verwenden würden, könnten sein:
Einige mögliche Ausnahmen beim Stemming können besser sein