Ich verwende pdftotext (Teil von poppler-utils), um PDF-Dokumente in Text umzuwandeln. Es funktioniert größtenteils, aber ich wünschte, es wäre das Einfügen von Leerzeilen zwischen getrennten Absätzen, anstatt sie zusammenzufügen.
Gibt es eine Möglichkeit, pdftotext dazu zu bringen? Und wenn nicht, gibt es ein anderes PDF-zu-Text-Dienstprogramm, das dies kann?
pdf
conversion
Dan
quelle
quelle
PDF to audio software for academic papers?
softwarerecs.stackexchange.com/questions/10640/…Antworten:
Sie könnten
ebook-convert
von Kaliber versuchen .Wenn überhaupt, würde ich sagen, dass es in die andere Richtung irrt: zu viele Zeilenumbrüche.
Eine andere Sache, die ich auf jeden Fall in Betracht ziehen würde, ist die Konvertierung in HTML mit pdfreflow und anschließend die Konvertierung von HTML in TXT.
quelle
ebook-convert
mehrspaltige Layout kann nicht konvertiert werden, da die Spalten in einer Spalte zusammengeführt werden. Bei mehrspaltigem Layout wirdpdftotext
eine viel bessere Ausgabe erzielt. Weitere Einschränkungen sind unter manual.calibre-ebook.com/conversion.html#convert-pdf-documents beschrieben .Wenn Sie pdftotext verwenden , können Sie das
-layout
Flag verwenden, um das Layout des Texts auf den Seiten in Ihrer Eingabe-PDF-Datei beizubehalten :quelle
-r
(Auflösung, Standard 72 dpi)Als Fan von Open Source (und Automatisierung) muss ich das nur ungern sagen, aber die besten Ergebnisse, die ich gerade erzielt habe (bei einer ziemlich großen, komplexen PDF-Datei), waren das Öffnen in Adobe Reader und die Auswahl von "Datei" | "Als Text speichern".
(Ich bin für Textanalyseexperimente vorverarbeitet, nicht als Leser, aber ich denke, meine erste und zweite Wahl wären gleich.)
Ich habe die Ausgabe nebeneinander verglichen. Meine zweite Wahl ist ebook-convert.
Adobe : In FF für Seitenumbrüche, in Seitenzahlen belassen, hat Überschriften / Absätze nicht in einzelne Zeilen konvertiert, sondern feste Bindestriche. Junk, der in der PDF-Datei versteckt war, wurde nicht ausgegeben. Die großen Hauptstädte am Anfang von Abschnitten wurden korrekt angezeigt, z. B. "The", nicht "T he" oder sogar "T he".
ebook-convert : Links in Seitenzahlen und etwas versteckter Müll in Kopf- / Fußzeile (aber keine FFs). Konvertiert die meisten Absätze in einzelne Zeilen. Diejenigen, die es verpasst hat, sind jedoch doppelt verteilt! Aufzählungszeichen stimmen nicht immer mit dem Text überein. Richtig "The" am Anfang des Kapitels.
pdftotext (ohne --layout) : Nicht schlecht, Aufzählungszeichen, aber Kopf- / Fußzeilenrauschen. FFs sind da drin. Bindestriche entfernt. Am schlechtesten für große Buchstaben am Anfang des Kapitels: "T \ n \ nhe".
pdftotext (mit --layout) : Ähnlich, aber mehr Einzüge. "D ie" zum Beginn des Kapitels.
pdftohtml >> pdfreflow >> htmltotext : Es wurden Seitenzahlen entfernt, aber immer noch Junk in der Kopf- / Fußzeile. "D ie" zum Beginn des Kapitels. Bindestriche entfernt. (Es werden mehrere Zeilen pro Absatz verwendet, es handelt sich jedoch nicht um dieselben Zeilenumbrüche wie in den anderen Versionen!)
quelle
ebook-convert
hat gut funktioniert.Wenn Sie über ein Google-Konto verfügen, können Sie das PDF mit Google Text & Tabellen hochladen und in bearbeitbaren Text umwandeln.
quelle
Ich habe auch pypdf ausprobiert und es mit pdftotext in zwei Dokumenten verglichen. Es gab mehr Zeilenumbrüche und einige Abschnittsnamen (REFERENCES war REFERENCES).
pdf2txt hat vollständigen Müll ausgegeben.
Ich benutze oft pdfBox (Java), wenn pdftotext die Ausgabe vermasselt. Sie könnten es versuchen.
quelle