Gibt es eine einfache Möglichkeit, einfachen Text aus einer PDF-Datei zu extrahieren?
Auf * nix-Systemen hatte ich früher einen Befehl ps2ascii
, der die Aufgabe erledigte, aber es scheint, dass dieser Befehl auf meinem Mac nicht standardmäßig installiert ist.
Was wäre der einfachste Weg, um Text aus einer PDF-Datei zu extrahieren, oder alternativ, wie man ps2ascii
auf mein System kommt?
ps2ascii
ist ein Teil von Ghostscript , das unter Mac OS X installiert werden kann (und möglicherweise bereits ab Werk standardmäßig installiert ist).quelle
Mir ist kein natives OS X- Dienstprogramm bekannt, das dies tut. Sie können jedoch die meisten Unix- / Linux-Befehle mit einer der drei folgenden Methoden installieren:
Homebew : Homebrew ist die einfachste und flexibelste Möglichkeit, die UNIX-Tools zu installieren, die Apple nicht in OS X integriert hat.
Fink : Das Fink-Projekt möchte die gesamte Welt der Unix Open Source-Software auf Darwin und Mac OS X bringen.
Macports : Das MacPorts-Projekt ist eine Open-Source-Community-Initiative zum Entwerfen eines benutzerfreundlichen Systems zum Kompilieren, Installieren und Aktualisieren von Open-Source-Software auf Befehlszeilen-, X11- oder Aqua-Basis unter dem Betriebssystem Mac OS X.
Homebrew ist das "neue Kind auf dem Block" und verspricht, die "Probleme und Einschränkungen" zu lösen, die die anderen beiden haben (was auch immer diese Probleme sein mögen). Ich schlage vor, dass Sie sich alle ansehen und das verwenden, was Sie für Ihre Bedürfnisse als am flexibelsten / einfachsten erachten.
Es gibt jedoch eine App (Payware), die das früher gemacht hat (ich weiß nicht, ob es das noch macht). Ich spreche von DEVONthink , und Sie können ein paar Tage lang eine Demo ausprobieren.
Update : Laut diesem Beitrag könnten Sie DevonThink (Testversion) installieren und die 'pdftotext'-Binärdatei ", die natürlich kostenlos ist " [sic] aus dem Bundle extrahieren .
quelle
ps2ascii
? Und welches soll ich bevorzugen?Wenn es Ihnen nichts ausmacht, eine GUI zu verwenden, können Sie Text aus einer PDF-Datei auswählen, die mit Preview.app geöffnet wurde
quelle
Verwenden Sie Online-Dokumentkonverter wie Saaspose.PDF , mit denen Sie Ihre PDF-Datei in ein TXT-basiertes Dokument konvertieren können. Und da es sich um eine Cloud-API handelt, müssen Sie nichts herunterladen oder installieren.
quelle
Das folgende Python-Skript gibt den Text aus einem PDF-Dokument in eine TXT-Datei aus. (Hinweis: Es gibt keine Garantie dafür, dass der Text aufgrund der Art und Weise, wie Daten im PDF-Format gespeichert werden, notwendigerweise in einer für Menschen lesbaren Reihenfolge „logisch“ ist.)
Das Skript erstellt Textdateien für alle PDF-Dateien, die als Argumente in der Befehlszeile angegeben werden (z. B.
pdf2txt.py myPDF.pdf
), oder Sie können in der Aktion "Shell-Skript ausführen" von Automator den Shell-Typ auf Python setzen und die Eingabe an "Als Argumente" übergeben. .quelle