Ich benötige PDF-Dateien für den Text, damit ich sie von der Kommandozeile aus in großen Mengen durchsuchen kann. Gibt es einen Konverter für Ubuntu, OBSD oder eine ähnliche Distribution?
Wenn es sich um eine "echte" PDF-Datei handelt (aus Text usw.), ist pdftotext die beste Wahl. Wenn es ein Bild ist, ist Ihre beste Wette etwas OCR-Material.
Kaliber ‚s ebook-convertKommandozeilenprogramm (oder Kaliber selbst) ist eine weitere Option; Es kann PDF in reinen Text oder ein anderes E-Book-Format (RTF, ePub) konvertieren. Meiner Meinung nach liefert es bessere Ergebnisse als pdftotext, obwohl es erheblich langsamer ist.
ebook-convert file.pdf file.txt
AbiWord kann zwischen allen Formaten konvertieren, die es von der Befehlszeile kennt, und verfügt zumindest optional über ein PDF-Import-Plugin:
abiword --to=txt file.pdf
Eine weitere Option ist podofotextextractdie Podofo PDF-Toolbibliothek. Das habe ich nicht wirklich versucht.
Wenn Sie die beiden Ghostscript-Werkzeuge pdf2psund kombinieren ps2ascii, haben Sie noch eine weitere Option.
Eigentlich kann ich mir noch ein paar Methoden überlegen, aber ich lasse es vorerst dabei. ;)
calibre's ebook-convert ... hast du gesehen, was es mit Ligaturen macht? bleargh. Sagen wir es so: Es ist kein sehr effektives Programm. pdftotext ist viel treuer. Ich habe noch nie Fehler in der Ausgabe entdeckt.
ixtmixilix
1
Sie können weniger zum Anzeigen von PDF-Dateien als Text verwenden. Es ruft einen Präprozessor (lesspipe) zum Aufrufen von pdftotext oder ähnlichen Tools auf.
Daniel Näslund
pdftotextliefert genauere Ergebnisse als ebook-convertund ist sehr schnell. ebook-convertist träge.
Amit Patel
pdftotextmit -layoutOption rockt! calibreerfordert mehr als 600mb zu installieren! Das ist verrückt)
Stalinko
9
Sie können PDFs mit pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage) in Text auf der Kommandozeile konvertieren .
Sie können Recoll
(Ubuntu: recoll ; OpenBSD: kein Port, aber einen für FreeBSD ) verwenden, um in verschiedenen formatierten Textdokumenttypen zu suchen, einschließlich PDF. Es gibt eine grafische Benutzeroberfläche, die automatisch einen Index erstellt. Es wird pdftotextzum Konvertieren von PDF in Text verwendet.
Acrobat Reader (mindestens Version 9 unter Linux) verfügt über eine eingeschränkte Suchfunktion für mehrere Dateien (Sie können alle Dateien in einem Verzeichnis durchsuchen).
pdftotext ist wahrscheinlich das, wonach Sie suchen: http://en.wikipedia.org/wiki/Pdftotext, es sei denn, der zu extrahierende Text liegt tatsächlich in grafischer Form vor, was bei PDF-Dokumenten nicht so häufig vor.
gPDFText konvertiert E-Book-PDF-Inhalte in ASCII-Text, der für Absätze mit langen Zeilen neu formatiert wurde. Es funktioniert für mich und verfügt über eine grafische Oberfläche.
Hallo und willkommen auf der Seite. Wir möchten, dass die Antworten hier etwas umfassender sind. Sie können beispielsweise hinzufügen, woher Sie es beziehen gPDFTextkönnen, wie es installiert werden kann und wie es zur Beantwortung der Frage des OP verwendet wird.
pdftotext
=pdfcat
.Antworten:
Sie haben viele Möglichkeiten!
pdftotext
von poppler wurde schon erwähnt.Es gibt ein Haskell-Programm namens,
pdf2line
das gut funktioniert.Kaliber ‚s
ebook-convert
Kommandozeilenprogramm (oder Kaliber selbst) ist eine weitere Option; Es kann PDF in reinen Text oder ein anderes E-Book-Format (RTF, ePub) konvertieren. Meiner Meinung nach liefert es bessere Ergebnisse als pdftotext, obwohl es erheblich langsamer ist.ebook-convert file.pdf file.txt
AbiWord kann zwischen allen Formaten konvertieren, die es von der Befehlszeile kennt, und verfügt zumindest optional über ein PDF-Import-Plugin:
abiword --to=txt file.pdf
Eine weitere Option ist
podofotextextract
die Podofo PDF-Toolbibliothek. Das habe ich nicht wirklich versucht.Wenn Sie die beiden Ghostscript-Werkzeuge
pdf2ps
und kombinierenps2ascii
, haben Sie noch eine weitere Option.Eigentlich kann ich mir noch ein paar Methoden überlegen, aber ich lasse es vorerst dabei. ;)
quelle
pdftotext
liefert genauere Ergebnisse alsebook-convert
und ist sehr schnell.ebook-convert
ist träge.pdftotext
mit-layout
Option rockt!calibre
erfordert mehr als 600mb zu installieren! Das ist verrückt)Sie können PDFs mit pdftotext (Ubuntu: poppler-utils ; OpenBSD:
xpdf-utils
package) in Text auf der Kommandozeile konvertieren .Sie können Recoll (Ubuntu: recoll ; OpenBSD: kein Port, aber einen für FreeBSD ) verwenden, um in verschiedenen formatierten Textdokumenttypen zu suchen, einschließlich PDF. Es gibt eine grafische Benutzeroberfläche, die automatisch einen Index erstellt. Es wird
pdftotext
zum Konvertieren von PDF in Text verwendet.Acrobat Reader (mindestens Version 9 unter Linux) verfügt über eine eingeschränkte Suchfunktion für mehrere Dateien (Sie können alle Dateien in einem Verzeichnis durchsuchen).
quelle
pdftotext ist wahrscheinlich das, wonach Sie suchen: http://en.wikipedia.org/wiki/Pdftotext, es sei denn, der zu extrahierende Text liegt tatsächlich in grafischer Form vor, was bei PDF-Dokumenten nicht so häufig vor.
quelle
gPDFText konvertiert E-Book-PDF-Inhalte in ASCII-Text, der für Absätze mit langen Zeilen neu formatiert wurde. Es funktioniert für mich und verfügt über eine grafische Oberfläche.
quelle
gPDFText
können, wie es installiert werden kann und wie es zur Beantwortung der Frage des OP verwendet wird.