Gibt es einen besseren PDF-zu-Text-Konverter als pdftotext?

63

Ich verwende pdftotext (Teil von poppler-utils), um PDF-Dokumente in Text umzuwandeln. Es funktioniert größtenteils, aber ich wünschte, es wäre das Einfügen von Leerzeilen zwischen getrennten Absätzen, anstatt sie zusammenzufügen.

Gibt es eine Möglichkeit, pdftotext dazu zu bringen? Und wenn nicht, gibt es ein anderes PDF-zu-Text-Dienstprogramm, das dies kann?

Dan
quelle
8
Im Titel sagst du "pdftotext" (was Teil von poppler-utils ist) und im Textkörper sagst du "pdt2text" (was ich nicht weiß). Auf welches beziehen Sie sich?
Enzotib
ähnliche Frage PDF to audio software for academic papers? softwarerecs.stackexchange.com/questions/10640/…
JinSnow

Antworten:

25

Sie könnten ebook-convertvon Kaliber versuchen .

Wenn überhaupt, würde ich sagen, dass es in die andere Richtung irrt: zu viele Zeilenumbrüche.

Eine andere Sache, die ich auf jeden Fall in Betracht ziehen würde, ist die Konvertierung in HTML mit pdfreflow und anschließend die Konvertierung von HTML in TXT.

schäbig
quelle
Hinweis: Das ebook-convertmehrspaltige Layout kann nicht konvertiert werden, da die Spalten in einer Spalte zusammengeführt werden. Bei mehrspaltigem Layout wird pdftotexteine viel bessere Ausgabe erzielt. Weitere Einschränkungen sind unter manual.calibre-ebook.com/conversion.html#convert-pdf-documents beschrieben .
Asmaier
117

Wenn Sie pdftotext verwenden , können Sie das -layoutFlag verwenden, um das Layout des Texts auf den Seiten in Ihrer Eingabe-PDF-Datei beizubehalten :

pdftotext -layout input.pdf output.txt
Noah
quelle
6
Es gibt auch eine Tabelle für Tabellenlayouts, die hervorragend funktioniert.
P.Windridge
3
@ P.Windridge, wo ist diese Tabellenoption? Ich kann es auf Version 0.48.0 von Poppler-Utils in Ubuntu 17.04
gozzilli
2
@ Gozzilli Das ist viel zu alt. Die neueste pdftotext ist v4.00, in dem Xpdf Tool Tarball hier .
Adrian
2
@gozzilli Versionen, die mit 0 beginnen, geben an, dass es sich um den Popplers-Zweig des Xpdf-Originalcodes handelt. Sie begannen ihre Versionsnummern neu, als sie den Code verzweigten. Beide Gruppen scheinen nun separate Versionen dieser PDF-Tools zu verwalten.
Andrew
1
@ VivekSable das sind Punkte (Pixel) mit der angegebenen -r(Auflösung, Standard 72 dpi)
vstepaniuk
14

Als Fan von Open Source (und Automatisierung) muss ich das nur ungern sagen, aber die besten Ergebnisse, die ich gerade erzielt habe (bei einer ziemlich großen, komplexen PDF-Datei), waren das Öffnen in Adobe Reader und die Auswahl von "Datei" | "Als Text speichern".

(Ich bin für Textanalyseexperimente vorverarbeitet, nicht als Leser, aber ich denke, meine erste und zweite Wahl wären gleich.)

Ich habe die Ausgabe nebeneinander verglichen. Meine zweite Wahl ist ebook-convert.

Adobe : In FF für Seitenumbrüche, in Seitenzahlen belassen, hat Überschriften / Absätze nicht in einzelne Zeilen konvertiert, sondern feste Bindestriche. Junk, der in der PDF-Datei versteckt war, wurde nicht ausgegeben. Die großen Hauptstädte am Anfang von Abschnitten wurden korrekt angezeigt, z. B. "The", nicht "T he" oder sogar "T he".

ebook-convert : Links in Seitenzahlen und etwas versteckter Müll in Kopf- / Fußzeile (aber keine FFs). Konvertiert die meisten Absätze in einzelne Zeilen. Diejenigen, die es verpasst hat, sind jedoch doppelt verteilt! Aufzählungszeichen stimmen nicht immer mit dem Text überein. Richtig "The" am Anfang des Kapitels.

pdftotext (ohne --layout) : Nicht schlecht, Aufzählungszeichen, aber Kopf- / Fußzeilenrauschen. FFs sind da drin. Bindestriche entfernt. Am schlechtesten für große Buchstaben am Anfang des Kapitels: "T \ n \ nhe".

pdftotext (mit --layout) : Ähnlich, aber mehr Einzüge. "D ie" zum Beginn des Kapitels.

pdftohtml >> pdfreflow >> htmltotext : Es wurden Seitenzahlen entfernt, aber immer noch Junk in der Kopf- / Fußzeile. "D ie" zum Beginn des Kapitels. Bindestriche entfernt. (Es werden mehrere Zeilen pro Absatz verwendet, es handelt sich jedoch nicht um dieselben Zeilenumbrüche wie in den anderen Versionen!)

Darren Cook
quelle
Acrobat Reader 9 unter Linux erzeugte in meinem Fall gequetschte Wörter. ebook-converthat gut funktioniert.
Ov7a
Wir brauchen wirklich eine KI-App dafür, sie scheint perfekt für diese Art von Aufgabe zu sein: kennt jemand eine?
JinSnow
1
Adobe Reader ist kostenlos, aber ... nur zum Lesen von PDF. Für andere Dinge müssen Sie bezahlen (monatliches Abonnement). (PDF zu Text ist auf wenige Seiten beschränkt). PDFTO-Text (oder XPDF auf Win) ist perfekt für meine Bedürfnisse.
JinSnow
Für Tabellendaten ist es jetzt am besten, die Option -table "pdftotext -table dateiname.pdf ausgabenname.txt" zu verwenden
Thom Ives,
5

Wenn Sie über ein Google-Konto verfügen, können Sie das PDF mit Google Text & Tabellen hochladen und in bearbeitbaren Text umwandeln.

Xangua
quelle
1

Ich habe auch pypdf ausprobiert und es mit pdftotext in zwei Dokumenten verglichen. Es gab mehr Zeilenumbrüche und einige Abschnittsnamen (REFERENCES war REFERENCES).

pdf2txt hat vollständigen Müll ausgegeben.

Ich benutze oft pdfBox (Java), wenn pdftotext die Ausgabe vermasselt. Sie könnten es versuchen.

Max
quelle