Gibt es Artikel oder Diskussionen zum Extrahieren von Textteilen, die die meisten Informationen zum aktuellen Dokument enthalten?
Zum Beispiel habe ich einen großen Bestand an Dokumenten aus derselben Domäne. Es gibt Textteile, die die wichtigsten Informationen enthalten, über die ein einzelnes Dokument spricht. Ich möchte einige dieser Teile extrahieren und sie als eine Art Zusammenfassung des Textes verwenden. Gibt es eine nützliche Dokumentation, wie man so etwas erreichen kann?
Es wäre sehr hilfreich, wenn mich jemand in die richtige Richtung weisen könnte, wonach ich suchen oder lesen sollte, um einen Einblick in Arbeiten zu erhalten, die möglicherweise bereits auf diesem Gebiet der Verarbeitung natürlicher Sprache durchgeführt wurden.
quelle
Viele Schlüsselwortextraktionstechniken hängen von folgenden Faktoren ab:
Wenn Sie jedoch einen langen Text haben und Stichwörter automatisch daraus extrahieren möchten, empfehle ich Ihnen, die folgenden Artikel zu lesen:
TextRank
RAKE [Schnelle automatische Keyword-Extraktion]
Topica
Um auch benutzerdefinierte (spezielle) Schlüsselwörter zu extrahieren, die nicht durch die oben genannten Techniken kommen, werfen Sie einen Blick auf den folgenden Beitrag:
Extrahieren Sie benutzerdefinierte Schlüsselwörter mit NLTK POS Tagger in Python
quelle