Gibt es eine Art PDF zu Text-Konverter?

21

Ich benötige PDF-Dateien für den Text, damit ich sie von der Kommandozeile aus in großen Mengen durchsuchen kann. Gibt es einen Konverter für Ubuntu, OBSD oder eine ähnliche Distribution?

Vielleicht verwandte Post, OCR mit Ubuntu hier .

otto
quelle
3
Ähnliche Frage bei Super User
Gilles 'SO- hör auf böse zu sein'
Wenn es sich um eine "echte" PDF-Datei handelt (aus Text usw.), ist pdftotext die beste Wahl. Wenn es ein Bild ist, ist Ihre beste Wette etwas OCR-Material.
Vonbrand
1
Ich benutze immer pdftotext= pdfcat.
Isomorphismen
ähnliche Frage bei Askubuntu
Trevor Boyd Smith

Antworten:

22

Sie haben viele Möglichkeiten!

pdftotextvon poppler wurde schon erwähnt.

Es gibt ein Haskell-Programm namens,pdf2line das gut funktioniert.

Kaliber ‚s ebook-convertKommandozeilenprogramm (oder Kaliber selbst) ist eine weitere Option; Es kann PDF in reinen Text oder ein anderes E-Book-Format (RTF, ePub) konvertieren. Meiner Meinung nach liefert es bessere Ergebnisse als pdftotext, obwohl es erheblich langsamer ist.

ebook-convert file.pdf file.txt

AbiWord kann zwischen allen Formaten konvertieren, die es von der Befehlszeile kennt, und verfügt zumindest optional über ein PDF-Import-Plugin:

abiword --to=txt file.pdf

Eine weitere Option ist podofotextextractdie Podofo PDF-Toolbibliothek. Das habe ich nicht wirklich versucht.

Wenn Sie die beiden Ghostscript-Werkzeuge pdf2psund kombinieren ps2ascii, haben Sie noch eine weitere Option.

Eigentlich kann ich mir noch ein paar Methoden überlegen, aber ich lasse es vorerst dabei. ;)

schäbig
quelle
calibre's ebook-convert ... hast du gesehen, was es mit Ligaturen macht? bleargh. Sagen wir es so: Es ist kein sehr effektives Programm. pdftotext ist viel treuer. Ich habe noch nie Fehler in der Ausgabe entdeckt.
ixtmixilix
1
Sie können weniger zum Anzeigen von PDF-Dateien als Text verwenden. Es ruft einen Präprozessor (lesspipe) zum Aufrufen von pdftotext oder ähnlichen Tools auf.
Daniel Näslund
pdftotextliefert genauere Ergebnisse als ebook-convertund ist sehr schnell. ebook-convertist träge.
Amit Patel
pdftotextmit -layoutOption rockt! calibreerfordert mehr als 600mb zu installieren! Das ist verrückt)
Stalinko
9

Sie können PDFs mit pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage) in Text auf der Kommandozeile konvertieren .

Sie können Recoll (Ubuntu: recoll ; OpenBSD: kein Port, aber einen für FreeBSD ) verwenden, um in verschiedenen formatierten Textdokumenttypen zu suchen, einschließlich PDF. Es gibt eine grafische Benutzeroberfläche, die automatisch einen Index erstellt. Es wird pdftotextzum Konvertieren von PDF in Text verwendet.

Acrobat Reader (mindestens Version 9 unter Linux) verfügt über eine eingeschränkte Suchfunktion für mehrere Dateien (Sie können alle Dateien in einem Verzeichnis durchsuchen).

Gilles 'SO - hör auf böse zu sein'
quelle
-1

gPDFText konvertiert E-Book-PDF-Inhalte in ASCII-Text, der für Absätze mit langen Zeilen neu formatiert wurde. Es funktioniert für mich und verfügt über eine grafische Oberfläche.

Charles
quelle
3
Hallo und willkommen auf der Seite. Wir möchten, dass die Antworten hier etwas umfassender sind. Sie können beispielsweise hinzufügen, woher Sie es beziehen gPDFTextkönnen, wie es installiert werden kann und wie es zur Beantwortung der Frage des OP verwendet wird.
Terdon