Gibt es unter Berücksichtigung möglicher Rechenbeschränkungen allgemeine Anwendungen, bei denen die Lemmatisierung ein kontraproduktiver Schritt bei der Analyse von Textdaten wäre?
Wäre Lemmatisierung beispielsweise etwas, das beim Erstellen eines kontextsensitiven Modells nicht durchgeführt wird?
Als Referenz ist Lemmatisierung per dictinory.com der Vorgang des Gruppierens der gebogenen Formen von (einem Wort) zur Analyse als ein einzelnes Element.
Zum Beispiel ist das Wort "kochen" das Lemma des Wortes "kochen". Beim Lemmatisieren wird beispielsweise das Wort Kochen durch Kochen ersetzt, nachdem Sie Ihre Textdaten mit einem Token versehen haben. Darüber hinaus hat das Wort "schlechter" "schlecht" als Lemma, und als vorheriges Beispiel ist das Ersetzen des Wortes "schlechter" durch "schlecht" die Aktion der Lemmatisierung.
quelle
Antworten:
NLP-Aufgaben, die durch Lemmatisierung geschädigt würden:
1) Zeitliche Klassifizierung
Die Zeichenfolge am Ende der Verben kann bei dieser Aufgabe hilfreich sein. Die gekochten Verben und Köche unterscheiden sich bei den letzten Zeichen ed und s .
Bei der Lemmatisierung gehen diese Informationen verloren. Beide Verben werden zu Köchen , wodurch beide Sätze (in diesem Fall) in der Gegenwart erscheinen.
2) Autorenidentifikation
Gegeben
Dies funktioniert, weil verschiedene Autoren bestimmte Wörter mit unterschiedlichen Häufigkeiten verwenden. Durch die Verwendung der Lemmatisierung verzerren Sie jedoch diese Frequenzen und beeinträchtigen die Leistung Ihres Modells.
quelle