Wenn ich Text aus einer PDF-Datei in einen Texteditor kopiere, wird er auf verschiedene Arten beschädigt. Formatierungen in Fett- und Kursivschrift gehen verloren. weiche Zeilenumbrüche innerhalb eines Textabschnitts werden in harte Zeilenumbrüche umgewandelt; Bindestriche, um ein Wort über zwei Zeilen zu trennen, bleiben erhalten, auch wenn dies nicht der Fall sein sollte. und einfache und doppelte Anführungszeichen werden ersetzt durch? Zeichen.
Idealerweise möchte ich in der Lage sein, Text aus einer PDF-Datei zu kopieren und die Formatierung in HTML-Codes, "intelligente Anführungszeichen" in "und" und Zeilenumbrüche zu konvertieren. Gibt es eine Möglichkeit, dies zu tun?
Antworten:
Zunächst muss man verstehen, was ein PDF ist. PDFs sind so konzipiert, dass sie eine gedruckte Seite imitieren. Sie sind nur als Ausgabeformat und nicht als Eingabeformat konzipiert. Ein PDF ist im Grunde eine Karte, die die genaue Position von Zeichen (einzelne Buchstaben oder Satzzeichen usw.) oder Bildern enthält. In den meisten Fällen werden in einem PDF-Dokument nicht einmal Informationen darüber gespeichert, wo ein Wort endet und wo ein anderes beginnt, geschweige denn, dass die Absätze durch weiche oder harte Brüche unterbrochen werden.
(In einigen neueren PDF-Dateien sind Informationen zu diesem Thema gespeichert, aber das ist eine neue Technologie, und Sie haben das Glück, solche PDF-Dateien zu finden. Selbst wenn Sie dies getan haben, weiß Ihr PDF-Viewer möglicherweise nichts davon.)
Wie auch immer, es liegt an Ihrer Software, eine Art "künstliche Intelligenz" zu implementieren, um lediglich aus den Positionen der einzelnen Zeichen zu extrahieren, was ein Wort ist, was ein Absatz ist und so weiter. Eine andere Software kann dies besser als andere und hängt auch davon ab, wie das PDF erstellt wurde. In jedem Fall sollten Sie niemals perfekte Ergebnisse erwarten. Das Ausgabe-PDF ist nicht dasselbe wie das Quelldokument. Es ist weitaus besser zu versuchen, das zu erreichen, wenn Sie können.
Die Standardlösung für Ihre Art von Problem besteht darin, Adobe Acrobat Professional (das teure und nicht das kostenlose Lesegerät) zum Konvertieren der PDF-Datei in HTML zu verwenden. Auch das wird nicht zu perfekten Ergebnissen führen.
Es gibt eine kostenlose Software, die zum Extrahieren von Text aus PDFs verwendet werden kann, wobei einige Formatierungen intakt sind. Erwarten Sie jedoch auch hier keine perfekten Ergebnisse. Siehe z. B. Kaliber (das in das RTF-Format konvertiert werden kann), pdftohtml / pdfreflow oder das AbiWord-Textverarbeitungsprogramm (mit allen aktivierten Import- / Export-Plugins). Es gibt auch ein PDF-Import-Plugin für OpenOffice.
Aber bitte erwarten Sie bei keinem dieser Ergebnisse Perfektion. Du gehst hier gegen den Strich. PDF ist nicht als bearbeitbares Eingabeformat gedacht.
quelle
Eine andere Möglichkeit ist, Foxit (es ist gut), den kostenlosen PDF-Viewer, herunterzuladen und zu verwenden. Dann können Sie 'Speichern unter' und .txt wählen, um es in eine Textdatei zu konvertieren. Dadurch bleibt die gesamte Formatierung erhalten. Keine Ahnung, ob Sie dasselbe in Adobe tun können, da ich es vor einiger Zeit nicht mehr verwendet habe, als ich zu Foxit konvertiert habe.
quelle
Es gibt ein sehr gutes Online-Tool namens Sej-da . Es befasst sich mit Advanced PDF Manipulation. Es ist keine Software zum Herunterladen vorhanden. Da es sich um ein neues Online-Tool handelt, befindet es sich derzeit noch in der Beta. Sie können damit Text aus einem PDF extrahieren und eine Vielzahl anderer PDF-Funktionen bereitstellen
http://www.sejda.com/
Eine kurze Videoüberprüfung der Sejda-Funktionen wurde am 14. November 2012 von Revision 3 durchgeführt und ist hier zu finden:
http://revision3.com/tzdaily/sejda-online-pdf
quelle
Öffnen Sie Ihre PDF-Datei mit einem Browser (Google Chrome und Firefox sind getestet) und kopieren Sie Ihren Text dorthin.
quelle
Sie können hierfür Adobe Acrobat Pro verwenden.
Für Tabellen: In Acrobat 9/10 gab es eine Funktion zum Auswählen von Tabellen. In Acrobat X können Sie einfach auf Speichern unter> Tabellenkalkulation> Excel klicken. Es verknüpft sogar Seiten zu einer langen Tabelle. Geniales Feature.
Für Text: Eine ähnliche Funktion gibt es für den Export nach MS Word. Speichern unter> Word> Word Doc.
Quellen:
quelle
Foxit wechselt zwischen der Anzeige der Originaldatei als normales PDF oder als Text durch Drücken von Strg + 6 (Mit ein wenig Fummeln an der Zoomstufe des Textmodus wird nicht viel zwischen Lesen und Kopieren hin und her gesprungen).
quelle
Ich fand das sehr nützlich ( Zeilenumbrüche entfernen ):
Hier ist ein nützlicher Trick, um dies schnell zu beheben, ohne alle Zeilenumbrüche manuell entfernen zu müssen. Grundsätzlich werden alle unerwünschten Zeilenumbrüche automatisch durch ein einzelnes Leerzeichen ersetzt, sodass der gesamte Text in einem einzigen Absatz zusammengefasst wird:
1- Kopieren Sie den gewünschten Text aus der PDF-Datei.
2- Einfügen in ein neues Word-Dokument.
3- Klicken Sie auf "Bearbeiten" und dann auf "Ersetzen".
4- Stellen Sie sicher, dass Sie sich im Feld "Suchen nach" befinden
5- Klicken Sie auf "mehr" und dann auf "speziell"
6- Wählen Sie "Absatzmarke" (oben in der Liste)
7- Klicken Sie in das Feld „Ersetzen durch“
8- drücken Sie einmal die Leertaste
9- Klicken Sie auf "Alle ersetzen"
10- Klicken Sie auf "OK" und schließen Sie das Feld "Suchen & Ersetzen".
quelle
Sie können vom Adobe Reader in MS Excel kopieren und die Tabelle wie gewünscht formatieren und dann aus Excel kopieren und einfügen. Diese Lösung funktioniert hervorragend. Sie müssen keine teure Adobe Professional-Kopie kaufen.
quelle
Ich habe versucht, den Text und das Format eines PDFs zu speichern, das in einer Tabelle organisiert war. In Acrobat Professional wurde mir klar, dass es eine Option zum Speichern unter gibt, die das Speichern als Excel-Dokument ermöglicht. Dies funktionierte gut für meine Bedürfnisse. Mir ist auch aufgefallen, dass es auch eine Option zum Speichern als Word-Dokument gibt. Ich habe es aber nicht ausprobiert.
quelle