Sie können dafür verwenden pdftk
. Weitere Informationen: Exportieren und Importieren von PDF-Lesezeichen .
Exportieren Sie PDF-Lesezeichen in der Befehlszeile wie folgt:
pdftk C:\Users\Sid\Desktop\doc.pdf dump_data output C:\Users\Sid\Desktop\doc_data.txt
Importieren Sie PDF-Lesezeichen aus einer Datendatei wie folgt:
pdftk C:\Users\Sid\Desktop\doc.pdf update_info C:\Users\Sid\Desktop\doc_data.txt output C:\Users\Sid\Desktop\updated.pdf
pdftk
Das Lesezeichenformat ist etwas mühsam zu schreiben. Stattdessen habe ich mein eigenes Skript mit bash
, sed
, pdftk
und python3
. Schau es dir in diesem Repo an: https://github.com/SiddharthPant/booky
Jetzt kann ich eine solche Textdatei ( bkmrks.txt
) erstellen , die selbst für ein 1000-Seiten-PDF-Dokument nur 5 Minuten benötigt.
{
Title1, 1
Title2, 2
{
Subtitle1, 3
Subtitle2, 4
{
SubSubtitle1, 5
...
}
}
}
und dann mein Skript verwenden
./booky.sh pdf_file.pdf bkmrks.txt
Dadurch wird automatisch ein pdf ( pdf_file_new.pdf
) mit meinen Lesezeichen erstellt.
Dies funktioniert auf * nix-Systemen, wenn Sie sich stattdessen auf einem Windows-Computer befinden. Dann zuerst installieren python3
und pdftk
nur die booky.py
Datei im Repo verwenden, um bkmrks.txt
in ein pdftk
kompatibles Format zu konvertieren
python3 booky.py < bkmrks.txt > output.txt
Verwenden Sie anschließend den Befehl export, um eine Datei mit den gespeicherten Daten zu generieren. Entfernen Sie die vorherigen Lesezeichen aus dieser Datei und fügen Sie output.txt
stattdessen den Inhalt mithilfe eines einfachen Kopiervorgangs ein. Und dann importieren Sie diese Daten zurück.
Die Spezifikation für PDF-Dateien ist als frei herunterladbares PDF von Adobe erhältlich - oder zumindest das letzte Mal, als ich es überprüft habe. In den meisten PDF-Dateien sind jedoch die meisten komprimierbaren Daten komprimiert. Es gab wahrscheinlich einmal eine im Grunde genommen reine Textversion von PDF, und wenn ja, wird sie jetzt noch gültig sein, aber tatsächlich kann es ein Problem sein, eine Datei in dieser Form zu erhalten.
Obwohl ich es nicht getan habe, besteht eine sehr wahrscheinliche Möglichkeit (wenn Sie bereit sind zu zahlen) darin, Acrobat Pro zu kaufen und die in dieser Anwendung integrierten Javascript-Skriptfähigkeiten zu verwenden. Um Ihnen den Einstieg zu erleichtern ...
http://acrobatusers.com/tutorials/2008/10/auto_bookmark_creation
In diesem Tutorial wird gezeigt, wie Sie Lesezeichen in Acrobat 7.0 Pro (der in Creative Suite CS2 enthaltenen Version) automatisch mit Javascript erstellen. Obwohl dies etwas in die Jahre gekommen ist, sollte die gleiche Technik für neuere Versionen gut funktionieren.
Adobe-Anwendungen enthalten eine Bibliothek zum Lesen / Schreiben von Textdateien mit JavaScript (etwas, das JavaScript nicht standardmäßig verwendet). Daher können Sie Ihre eigenen Import- / Exportskripten schreiben, obwohl dies nicht trivial ist, um diese Skripten robust zu machen.
quelle
Um Lesezeichen zu exportieren, verfolge ich einen anderen Ansatz, der die Verwendung von Microsoft OneNote erfordert:
Ich öffne den PDF-Reader (ich verwende die kostenlose Version von Foxit) mit der sichtbaren Lesezeichenstruktur und frage dann in OneNote nach einem Schnappschuss und wähle die Foxit-Lesezeichenstruktur aus.
Zurück zu OneNote wähle ich die Option "Text aus Bild kopieren" (in dem Menü, das nach dem Klicken mit der rechten Maustaste auf das Schnappschussbild angezeigt wird) und füge es an der Seite ein, um den Einzug zu korrigieren (normalerweise mit Aufzählungszeichen).
quelle
HandyOutline. 1 ziehen, 1 klicken, fertig. https://sourceforge.net/projects/handyoutlinerfo/ . Frei. Rückt Unterlesezeichen ein Benötigt keinen PDF-Reader / Editor. Bearbeiten, Exportieren aller Details in Text (Kopieren in Word Schreiben Sie ein Makro, um es in ein voll funktionsfähiges Word-Dokument umzuwandeln) oder XML, wiederholen Sie den Import in PDF. Dev verdient Spenden.
Der PDF-Xchange Editor (ersetzt PDFViewer) dupliziert die Lesezeichen nach dem Zufallsprinzip und exportiert sie in einen Text
JPDF benötigte Java, exportierte Formatierungsmüll, konnte es nicht bereinigen, um nur die Namen zu erhalten
PDFtk bereitete mir Kopfschmerzen, als ich mir nur die Anweisungen ansah
:-)
quelle
Ich habe eine andere, eher "dumme" Lösung gefunden, um alle Lesezeichen in einem PDF als Text für eine andere Verwendung zu kopieren. In Acrobat Pro (für Mac OS) gibt es keine Möglichkeit, alle Lesezeichen auszuwählen und sie in eine Textverarbeitung zu kopieren bzw. einzufügen. Sie können jedoch das gesamte PDF als HTML-Datei mit der Option "Eine einzige HTML-Seite + Navigationsrahmen basierend auf Lesezeichen hinzufügen" exportieren. Öffnen Sie dann den HTML-Code in einem Browser, markieren Sie den gesamten Text im Navigationsrahmen und kopieren Sie ihn in eine Textverarbeitung.
quelle
Um alle Lesezeichen aus einer PDF-Datei in eine Textdatei zu lesen, können Sie diesen Befehl verwenden mit
pdftk
:Ich habe dann Regex auf Notepad ++ verwendet, um die zusätzlichen Teile zu entfernen. Folgendes habe ich durch eine leere Zeichenfolge (in der angegebenen Reihenfolge) ersetzt und dann eine Liste mit Lesezeichen erstellt (vergessen Sie nicht, das Ersetzen mit Regex in Ihrem Texteditor vorzunehmen):
Wenn Sie die Zahlen entfernen möchten, ersetzen Sie diesen Ausdruck:
quelle