Lemmatisierung gegen Stemming

7

Ich habe über beide Techniken gelesen, um die Wurzel des Wortes zu finden, aber wie ziehen wir eine der anderen vor?

Ist "Lemmatisierung" immer besser als "Stemming"?

Ashirwad
quelle

Antworten:

10

Ich würde sagen, dass Lemmatisierung im Allgemeinen der bevorzugte Weg ist, verwandte Wörter auf eine gemeinsame Basis zu reduzieren.

Diese Quora-Frage ist eine gute Ressource zu diesem Thema: Ist es ratsam, Lemmatisierung anstelle von Stemming in NLP zu wählen? Die Top-Antwort zitiert eine weitere gute Ressource, die motiviert, warum Lemmatisierung normalerweise besser ist: Stemming und Lemmatisierung von Stanford NLP:

Warum Lemmatisierung besser ist

Stemming bezieht sich normalerweise auf einen groben heuristischen Prozess, der die Enden von Wörtern abhackt, in der Hoffnung, dieses Ziel die meiste Zeit korrekt zu erreichen, und häufig das Entfernen von Ableitungs-Affixen einschließt.

Lemmatisierung bezieht sich normalerweise darauf, Dinge unter Verwendung eines Vokabulars und einer morphologischen Analyse von Wörtern richtig zu machen, wobei normalerweise nur darauf abzielt, Flexionsenden zu entfernen und die Basis- oder Wörterbuchform eines Wortes zurückzugeben, die als Lemma bekannt ist.

Aber das ist nur allgemein, es ist nicht immer besser. Stemming hat noch einige Vorteile und hängt vom Anwendungsfall ab. Einige Gründe, warum Sie Stemming anstelle von Lemmatisierung verwenden würden, könnten sein:

Einige mögliche Ausnahmen beim Stemming können besser sein

  • Einfachheit
  • Geschwindigkeit
  • Speicherbeschränkungen
Simon Larsson
quelle
4
Ein weiterer Fall, in dem ich persönlich festgestellt habe, dass es (manchmal) besser funktioniert: sehr kurze Textausschnitte wie Firmennamen, die Grammatikregeln oft nicht vollständig befolgen; aggressive Stemming-Algorithmen wie Schneeball funktionieren meiner Erfahrung nach genauso gut, wenn nicht sogar besser.
Shadowtalker
Danke fürs Hinzufügen! Ich werde bearbeiten, um klarer zu machen, dass es mehr Situationen geben kann, in denen Stemming besser funktionieren kann.
Simon Larsson
4
Ich kann die Geschwindigkeit nicht genug betonen! Ich hatte eine App, deren Ausführung ewig gedauert hat, weil wir Lemmatisierung ausgeführt haben. Das Ersetzen durch Stemming beschleunigte die Dinge.
ChiPlusPlus