Extrahieren Sie die informativsten Textteile aus Dokumenten

16

Gibt es Artikel oder Diskussionen zum Extrahieren von Textteilen, die die meisten Informationen zum aktuellen Dokument enthalten?

Zum Beispiel habe ich einen großen Bestand an Dokumenten aus derselben Domäne. Es gibt Textteile, die die wichtigsten Informationen enthalten, über die ein einzelnes Dokument spricht. Ich möchte einige dieser Teile extrahieren und sie als eine Art Zusammenfassung des Textes verwenden. Gibt es eine nützliche Dokumentation, wie man so etwas erreichen kann?

Es wäre sehr hilfreich, wenn mich jemand in die richtige Richtung weisen könnte, wonach ich suchen oder lesen sollte, um einen Einblick in Arbeiten zu erhalten, die möglicherweise bereits auf diesem Gebiet der Verarbeitung natürlicher Sprache durchgeführt wurden.

MaticDiba
quelle

Antworten:

23

Was Sie beschreiben, wird oft durch eine einfache Kombination von TF-IDF und extraktiver Zusammenfassung erreicht .

Kurz gesagt, TF-IDF gibt an, wie wichtig jedes Wort in jedem Dokument im Vergleich zum Rest Ihres Korpus ist. Zu diesem Zeitpunkt haben Sie eine Punktzahl für jedes Wort in jedem Dokument, die ungefähr der "Wichtigkeit" entspricht. Anschließend können Sie diese einzelnen Wortbewertungen verwenden, um eine zusammengesetzte Bewertung für jeden Satz zu berechnen, indem Sie die Bewertungen für jedes Wort in jedem Satz summieren. Zum Schluss nehmen Sie einfach die Top-N-Bewertungssätze aus jedem Dokument als Zusammenfassung.

Anfang dieses Jahres habe ich ein iPython-Notizbuch zusammengestellt, das mit einer Implementierung in Python unter Verwendung von NLTK und Scikit-learn gipfelt : Ein Hauch von NLP in Python .

Charlie Greenbacker
quelle
2
Ja, das wäre es wahrscheinlich. Ich könnte auch einigen Wörtern, von denen ich bereits weiß, dass sie informativ sind, zusätzliche Gewichte hinzufügen. Vielen Dank für Ihre Hilfe und nützliche Links.
MaticDiba
Kann ich das also für ein PDF verwenden? :)
Adam
Ja, Sie können dies für den Text in einer PDF-Datei verwenden, vorausgesetzt, Sie haben den Nur-Text bereits mit etwas wie pdftotext aus der PDF-Datei extrahiert.
Charlie Greenbacker
1

Viele Schlüsselwortextraktionstechniken hängen von folgenden Faktoren ab:

  1. Grammatische Qualität des Textes
  2. Textlänge
  3. Egal, ob Sie ein einzelnes oder ein phrasales Keyword usw. suchen.

Wenn Sie jedoch einen langen Text haben und Stichwörter automatisch daraus extrahieren möchten, empfehle ich Ihnen, die folgenden Artikel zu lesen:

  1. TextRank

  2. RAKE [Schnelle automatische Keyword-Extraktion]

  3. Topica

Um auch benutzerdefinierte (spezielle) Schlüsselwörter zu extrahieren, die nicht durch die oben genannten Techniken kommen, werfen Sie einen Blick auf den folgenden Beitrag:

Extrahieren Sie benutzerdefinierte Schlüsselwörter mit NLTK POS Tagger in Python

Anindya
quelle