Wir suchen nach einer Möglichkeit, Text auf die gleiche oder ähnliche Weise zu tokenisieren, wie es eine Suchmaschine tun würde.
Der Grund, warum wir dies tun, ist, dass wir statistische Analysen für die Token durchführen können. Die Sprache, die wir verwenden, ist Python. Daher würden wir eine Technik bevorzugen, die in dieser Sprache funktioniert, aber möglicherweise etwas einrichten könnte, um bei Bedarf eine andere Sprache zu verwenden.
Beispiel
Original-Token:
Wir haben einige tolle Burritos!
Einfacher: (Plural und Interpunktion entfernen)
Wir haben einen tollen Burrito
Noch einfacher: (überflüssige Wörter entfernen)
toller Burrito
Am besten: (positive und negative Bedeutung erkennen):
Burrito -positiv-
python
search
search-engine
lucene
Chris Dutrow
quelle
quelle
Antworten:
Python hat ein großartiges Toolkit für natürliche Sprachen, das NLTK . Es unterstützt die sofort einsatzbereite Wort-Tokenisierung:
Die letzte Struktur enthält Tags in natürlicher Sprache, mit denen Sie Wörter aufgrund ihrer Klassifizierung aus der Betrachtung streichen können. Sie möchten sich wahrscheinlich auf die Tags
JJ
(Adjektiv) undNN
-präfixiert (Substantiv) konzentrieren.Von da an können Sie Stemming anwenden und positive und negative Adjektive erkennen.
Ich glaube, dass Sie für die Adjektivklassifizierung jedoch Ihren eigenen Korpus aus solchen Online-Ressourcen erstellen müssen . Die Bibliothek bietet Ihnen die Werkzeuge dafür.
Hier ist ein Stemming-Beispiel mit dem Porter-Stemming-Algorithmus:
O'Reilly veröffentlichte ein Buch in der Bibliothek, das jetzt online verfügbar ist .
quelle