Wann benutze ich jeden?
Auch ... ist die NLTK-Lemmatisierung von Wortarten abhängig? Wäre es nicht genauer, wenn es so wäre?
python
nlp
nltk
lemmatization
TIMEX
quelle
quelle
Antworten:
Kurz und dicht: http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html
Aus den NLTK-Dokumenten:
quelle
Quelle : https://en.wikipedia.org/wiki/Lemmatisation
quelle
Es gibt zwei Aspekte, um ihre Unterschiede zu zeigen:
Ein Stemmer gibt den Stamm eines Wortes zurück, der nicht mit der morphologischen Wurzel des Wortes identisch sein muss. Normalerweise reicht es aus, wenn verwandte Wörter demselben Stamm zugeordnet werden, auch wenn der Stamm an sich keine gültige Wurzel ist, während bei der Lemmatisierung die Wörterbuchform eines Wortes zurückgegeben wird, das ein gültiges Wort sein muss.
Bei der Lemmatisierung sollte zuerst der Teil der Sprache eines Wortes bestimmt werden, und die Normalisierungsregeln werden für verschiedene Teile der Sprache unterschiedlich sein, während der Stemmer ein einzelnes Wort ohne Kenntnis des Kontexts bearbeitet und daher nicht zwischen Wörtern unterscheiden kann, die unterschiedliche Wörter haben Bedeutungen je nach Wortart.
Referenz http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization
quelle
Der Zweck sowohl des Stemmings als auch der Lemmatisierung besteht darin, die morphologische Variation zu verringern. Dies steht im Gegensatz zu den allgemeineren "Term Conflation" -Verfahren, die auch lexikosemantische, syntaktische oder orthographische Variationen behandeln können.
Der wirkliche Unterschied zwischen Stemming und Lemmatisierung ist dreifach:
Stemming reduziert Wortformen auf (Pseudo-) Stämme, während Lemmatisierung die Wortformen auf sprachlich gültige Lemmas reduziert. Dieser Unterschied ist in Sprachen mit komplexerer Morphologie offensichtlich, kann jedoch für viele IR-Anwendungen irrelevant sein.
Die Lemmatisierung befasst sich nur mit der Flexionsvarianz, während sich das Stemming auch mit der Ableitungsvarianz befassen kann.
In Bezug auf die Implementierung ist die Lemmatisierung normalerweise komplexer (insbesondere für morphologisch komplexe Sprachen) und erfordert normalerweise eine Art Lexika. Ein zufriedenstellendes Stemming kann dagegen mit relativ einfachen regelbasierten Ansätzen erreicht werden.
Die Lemmatisierung kann auch durch einen Teil-der-Sprache-Tagger unterstützt werden, um Homonyme zu unterscheiden.
quelle
Wie MYYN hervorhob, ist Stemming der Prozess des Entfernens von Flexions- und manchmal Ableitungs-Affixen an einer Grundform, auf die sich wahrscheinlich alle ursprünglichen Wörter beziehen. Bei der Lemmatisierung geht es darum, ein einzelnes Wort zu erhalten, mit dem Sie eine Reihe von gebogenen Formen zusammenfassen können. Dies ist schwieriger als das Stemming, da der Kontext (und damit die Bedeutung des Wortes) berücksichtigt werden muss, während das Stemming den Kontext ignoriert.
Wann Sie das eine oder das andere verwenden würden, hängt davon ab, wie sehr Ihre Anwendung davon abhängt, ob die Bedeutung eines Wortes im Kontext korrekt ist. Wenn Sie maschinell übersetzen, möchten Sie wahrscheinlich eine Lemmatisierung, um eine falsche Übersetzung eines Wortes zu vermeiden. Wenn Sie mehr als eine Milliarde Dokumente mit 99% Ihrer Anfragen abrufen, die aus 1-3 Wörtern bestehen, können Sie sich mit Stemming zufrieden geben.
Was NLTK betrifft, verwendet der WordNetLemmatizer den Teil der Sprache, obwohl Sie ihn bereitstellen müssen (andernfalls werden standardmäßig Substantive verwendet). Wenn Sie "Taube" und "v" übergeben, erhalten Sie "Tauchen", während "Taube" und "n" "Taube" ergeben.
quelle
Eine beispielhafte Erklärung zu den Unterschieden zwischen Lemmatisierung und Stemming:
Die Lemmatisierung behandelt die Zuordnung von "Auto" zu "Autos" sowie die Zuordnung von "Auto" zu "Automobil".
Stemming Griffe passen "Auto" zu "Autos" .
http://www.ideaeng.com/stemming-lemmatization-0601
quelle
ianacl,
aber ich denke, Stemming ist ein grober Hack, mit dem die Leute alle verschiedenen Formen desselben Wortes auf eine Grundform bringen, die für sich genommen kein legitimes Wort sein muss
etwas wie der Porter Stemmer kann einfache Regexe verwenden, um gebräuchliche Wortsuffixe zu entfernen
Die Lemmatisierung bringt ein Wort auf seine eigentliche Grundform zurück, die bei unregelmäßigen Verben möglicherweise nicht wie das Eingabewort
aussieht. So etwas wie Morpha, das FSTs verwendet, um Substantive und Verben in ihre Grundform zu bringen
quelle
Stemming entfernt oder entfernt nur die letzten Zeichen eines Wortes, was häufig zu falschen Bedeutungen und Rechtschreibungen führt. Die Lemmatisierung berücksichtigt den Kontext und wandelt das Wort in seine sinnvolle Grundform um, die Lemma genannt wird. Manchmal kann dasselbe Wort mehrere verschiedene Lemmas haben. Wir sollten das POS-Tag (Part of Speech) für das Wort in diesem bestimmten Kontext identifizieren. Hier sind die Beispiele, um alle Unterschiede und Anwendungsfälle zu veranschaulichen:
quelle
Beim Stemming werden die letzten Zeichen eines bestimmten Wortes entfernt, um eine kürzere Form zu erhalten, auch wenn diese Form keine Bedeutung hat.
Beispiele,
Stemming kann sehr schnell durchgeführt werden.
Lemmatisierung ist andererseits der Prozess der Umwandlung des gegebenen Wortes in seine Grundform gemäß der Wörterbuchbedeutung des Wortes.
Beispiele,
Die Lemmatisierung dauert länger als das Stemming.
quelle