Ich habe eine Reihe von gescannten Dokumenten im PDF-Format und möchte sie durchsuchen können. Wie kann ich das machen?
Im Wesentlichen muss ich das PDF OCR und dann den extrahierten Text wieder in ein neues PDF mischen. Ich habe verschiedene Lösungen erfolglos ausprobiert (einschließlich der unter Hinzufügen von OCR-Informationen zu einer PDF ).
- pdfocr (das gibt mir dieses Problem: https://github.com/gkovacs/pdfocr/issues/7 )
- pdfsandwich (von dem das Software-Center sagt, dass es ein schlechtes Paket ist und ich es nicht installieren sollte)
- OCRfeeder (im Software Center) exportiert gut nach odt, reagiert aber nicht beim Export nach pdf.
- Gscan2pdf exportiert ein vollständig schwarzes (aber durchsuchbares) Bild, wie in dieser Diskussion angegeben .
- Ich glaube nicht, dass Pdfxchange Viewer es schafft, Dateien über 500 Seiten im Handumdrehen zu bearbeiten.
Gibt es ein Softwarepaket, von dem ich nichts weiß? Oder ein Skript, das das macht?
software-recommendation
pdf
ocr
don.joey
quelle
quelle
pdf2searchablepdf
. Es verlässt sich auftesseract
. Es funktioniert gut. Super einfach zu bedienen. Siehe hier. askubuntu.com/a/1187881/327339Antworten:
Ubuntu <16.04
Nach dem Kommentar von Glutanimate habe ich eine funktionierende Lösung gefunden. Es ist das OCRmyPDF-Skript .
Wenn Sie eine Meldung erhalten, dass Sie GNU parallel installieren sollten. Dies kann (unter /ubuntu//a/298598/115155 ) mit erfolgen (die zweite Zeile ist optional und hängt von Ihrem Geschmack und Ihrer Version ab):
Schließlich können Sie Ihr PDF mit dem Befehl OCR:
Wenn der Befehl anscheinend nicht reagiert, können Sie die Ausführlichkeit mit dem
-v
Flag erhöhen (das inkrementell als-vv
oder verwendet werden kann-vvv
). Am besten testen Sie die Ergebnisse zuerst in einem kürzeren PDF. Sie können ein PDF wie folgt kürzen:Ubuntu> = 16.04
Ab Ubuntu 16.04 ist OCRmyPDF über apt verfügbar. Lauf einfach
Schließlich können Sie Ihr PDF mit dem Befehl OCR:
Wenn der Befehl anscheinend nicht reagiert, können Sie die Ausführlichkeit mit dem
-v
Flag erhöhen (das inkrementell als-vv
oder verwendet werden kann-vvv
). Am besten testen Sie die Ergebnisse zuerst in einem kürzeren PDF. Sie können ein PDF wie folgt kürzen:Wenn Sie Fragen haben, schauen Sie im neuen Github Repo nach .
quelle
sudo -H pip install git+https://github.com/jbarlow83/OCRmyPDF
für Ubuntu 16.04sudo apt install ocrmypdf
.@ don.joey antwortete mit dem ocrmypdf- Skript. Es kann jetzt jedoch direkt installiert werden (ab 16.10).
Dann müssen Sie die benötigten tesseract- Sprachen installieren .
Um aufzulisten, welche Sprachen sich bereits in Ihrem System befinden, geben Sie Folgendes ein:
Falls Sie eines verpassen, installieren Sie es. Zum Beispiel,
Jetzt können Sie mit dem folgenden Befehl eine durchsuchbare PDF-Datei erstellen (deren Qualität je nach gescanntem Dokument unterschiedlich ist)
Natürlich können Sie in der Manpage nach weiteren Optionen suchen.
quelle
pdfsandwich
führt genau diesen Job aus. Ich wusste nicht, dass es ein Paket im Software-Center gibt, aber ich stelle Ubuntu-Deb-Pakete dafür auf der Projekt-Website zur Verfügung (siehe http://www.tobias-elze.de/pdfsandwich/ für Details). einschließlich der aktuellsten Version (0.1.2), die noch in keinem Software-Center zu finden ist.Wenn Sie eine gescannte Datei haben
scanned_file.pdf
, rufen Sie einfach andas erzeugt die Datei
scanned_file_ocr.pdf
mit dem erkannten Text den gescannten Seiten hinzugefügt wird.Im Vergleich zu den meisten vorhandenen Lösungen erkennt es die installierte tesseract-Version automatisch und passt ihr Verhalten entsprechend an. Darüber hinaus führt es eine Vorverarbeitung der gescannten Bilder vor dem OCR-Prozess durch, wie z. B. ein Verzerren oder Entfernen von dunklen Kanten usw., wodurch die optische Zeichenerkennung erheblich verbessert werden kann.
HAFTUNGSAUSSCHLUSS: Ich bin der Entwickler von
pdfsandwich
und daher stark voreingenommen.quelle
OCRfeeder hat einen Fehler in
Zeile 436 sollte lauten:
hat das geändert und es hat bei mir funktioniert
quelle
Betriebssystem: Ubuntu 18.04
Installieren Sie zuerst
tesseract-ocr
mit:Wenn Sie eine andere Sprache als Englisch mit tesseract verwenden, müssen Sie das entsprechende Sprachpaket installieren. Zum Beispiel für Portugiesisch müssen Sie Folgendes tun:
Andernfalls erhalten Sie den Fehler:
Wenn Sie Google "tesseract PDF" verwenden, werden Sie diesen etwas veralteten Beitrag wahrscheinlich finden . Es gibt Ihnen jedoch einige nützliche Hinweise. Sie müssen zuerst Ihre
.pdf
Datei in eine konvertieren.tiff
. Lauf:Wenn Sie, wie in dem veralteten Beitrag, das Hinzufügen vergessen
alpha -Off
, wird der folgende Fehler angezeigt:Jetzt können Sie den letzten Befehl ausführen. In dem speziellen Fall, dass Ihr Original-PDF in Portugiesisch vorliegt, benötigen Sie diesen Befehl:
Die generierte Datei wird benannt
output.pdf
. Wenn Ihr PDF-Dokument beispielsweise in Französisch vorliegttesseract-ocr-fra
, führen Sie nach der Installation des entsprechenden Dokuments Folgendes aus:Und die gewünschte Datei wird wieder
output.pdf
.quelle
Ich hatte das gleiche Problem und schrieb es über das Wochenende. Versuch es einmal; es funktioniert super! Es ist eine einfache Hülle
tesseract
. Es wird verwendetpdftoppm
, um eine PDF-Datei in eine Reihe von TIFF-Dateien zu konvertierentesseract
OCR (Optical Character Recognition) für diese und eine durchsuchbare PDF-Datei als Ausgabe erstellt. Alle temporären Zwischendateien werden nach Abschluss des Skripts automatisch gelöscht.Quellcode: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
Anweisungen zur Installation und Verwendung
pdf2searchablepdf
:Getestet unter Ubuntu 18.04 am 11. November 2019.
Installieren:
Verwenden:
Sie haben jetzt ein PDF mit dem Namen mypdf_searchable.pdf , das durchsuchbaren Text enthält!
Erledigt. Der Wrapper hat keine Python-Abhängigkeiten, da er derzeit vollständig in Bash geschrieben ist.
Referenzen oder verwandte Ressourcen:
pdftoppm
] Eingebettete Bilder aus einem PDF extrahierenquelle