Unter Linux - Wie extrahiere ich Text aus einem .pdf
Text, bei dem es sich wirklich um Text und nicht um ein gescanntes Bild handelt? Ich möchte etwas, das ich in der Befehlszeile / in einem Skript verwenden kann, nicht interaktiv. (Ich möchte nicht in .tif
OCR konvertieren und es verwenden. Text ist bereits in der .pdf
Datei vorhanden. Warum sollten Sie also Ungenauigkeiten durch fehlerhafte OCR einführen?)
23
Antworten:
pdftotext
Der mit Poppler gelieferte Befehl versucht, den im PDF-Dokument enthaltenen Text zu extrahieren.quelle
Ignacios Antwort ist in Ordnung. In der Tat wäre es das erste, was auf meiner Liste steht. Nun, das und vielleicht um das
pdftohtml
Tool vorzuschlagen , das auch mit poppler geliefert wird, kombiniert mit pdfreflow, wenn Sie versuchen möchten, den Text wieder in Absätze usw. zusammenzusetzen auf viele Arten gemacht werden.)Hier sind noch einige andere Optionen.
Das
ebook-convert
Befehlszeilentool von Calibre , mit dem PDFs in einfachen Text (oder RTF oder eine Reihe von E-Book-Formaten wie ePub usw.) konvertiert werden können.pdftxtextract
von PodofoAbiword kann von der Kommandozeile aus aufgerufen werden, um zwischen allen Formaten zu konvertieren, in die es eingegeben / exportiert werden kann. Mit dem entsprechenden Import-Plugin sind dies auch PDFs:
abiword --to=txt file.pdf
(Fairerweise denke ich, dass AbiWord und Calibre beide die Poppler-Bibliotheken verwenden, aber ich bin nicht positiv.)
quelle