Wie entferne ich OCR aus einem PDF?

13

Ich suche seit einiger Zeit bei Google, kann aber keine Antwort auf meine Frage finden.

Ich habe unerwünschte OCR-Ebenen in einem Dokument, das ich kürzlich mit Adobe Acrobat gescannt habe. Es wurde nicht richtig OCRed und ich möchte einige Informationen redigieren, aber die OCR sorgt dafür, dass die gewünschten Informationen gelöscht werden. Ich habe die Dateien in TIFs konvertiert, aber einen (sehr) signifikanten Qualitätsverlust festgestellt. Ich habe gehört, dass das Drucken in ein anderes PDF entweder den Text beibehält oder die Bildqualität verringert.

Ich freue mich über jede Hilfe bei der Lösung dieses Problems so schnell wie möglich.

Danke.

Sanoo
quelle

Antworten:

5

In Acrobat Pro DC lautet der entsprechende Befehl "Versteckte Informationen entfernen" und ist sowohl über die Tools "Schützen" als auch "Redact" verfügbar.

Beim Ausführen des Befehls werden nur die versteckten Informationen durchsucht, das Dokument jedoch nicht geändert. Anschließend müssen Sie Acrobat mitteilen, welche Informationen entfernt werden sollen. Wählen Sie in diesem Fall im Ergebnisbereich "Versteckter Text" aus, klicken Sie auf die Schaltfläche Entfernen und speichern Sie das geänderte Dokument.

user1125483
quelle
Ich habe die Option "Versteckte Informationen entfernen" verwendet, aber für mich werden aus irgendeinem Grund nur Teile des Bildes auf bestimmten Seiten entfernt. Vielen Dank für Ihre Antwort.
Sanoo
Dies ist nicht allgemein gültig. Irgendwie (wahrscheinlich Fehler in macOS PDFKit) wurde mein ABBYY FineReader-OCRed-Text beschädigt, und durch Aktivieren von "Versteckter Text" unter "Redigieren → Verstecken entfernen" wurde der Text ohne Probleme entfernt. Ich konnte dann erfolgreich Scans verbessern → Text erkennen verwenden, um OCR in Acrobat selbst durchzuführen.
Nicholas Riley
Das Problem für mich ist, dass ich nach dem Entfernen des versteckten Textes immer noch keine OCR mit "ClearScan" (dh "bearbeitbarer Text und Bilder") ausführen kann. Es ist seltsam, weil die Textebene weg zu sein scheint, aber das Ausführen von OCR den Fehler "Acrobat konnte keine Erkennung durchführen, weil: Seite renderbaren Text enthält."
user1125483
1

Nach vielen Experimenten stellte ich fest, dass beim Drucken in Adobe PDF von Adobe Acrobat das Dokument ohne OCR und ohne Qualitätsverlust gedruckt wird (eine auf den ersten Blick nicht wahrnehmbare Auflösung geht verloren).

Viele Websites behaupten jedoch, dass dies nicht funktioniert. Ich habe auch die anderen Drucker wie Foxit Reader und OneNote ausprobiert, aber die Qualität war reduziert. Auch JPEG war das gleiche.

Bitte beachten Sie, dass Ihr Kilometerstand variieren kann.

Hinweis: Ich lasse diesen Thread als unbeantwortet markiert, in der Hoffnung, eine bessere Antwort als meine zu finden.

Sanoo
quelle
1

(vor einem Jahr...)

Wenn die Dokumente beispielsweise gescannt und nicht aus Word als PDF gedruckt werden, können Sie sie mit Adobe ganz einfach entfernen:

Wählen Sie Dokument, Dokument untersuchen und jetzt können Sie den versteckten Text (OCR) entfernen.

Fran
quelle
Danke für deine Antwort. Ich werde es so schnell wie möglich testen und dich wissen lassen. Danke für die Antwort!
Sanoo
Ich dachte, ich hätte dies bereits kommentiert, aber das Problem ist, dass ich Acrobat DC Pro habe und diese Menüs entfernt wurden. Trotzdem danke für deine Antwort.
Sanoo
1

In Acrobat Pro: Verwenden Sie "Versteckte Informationen entfernen" (unter "Schutz"). Alles auswählen, ausführen, OCR ist weg

jazzzz
quelle
1

In Acrobat X gibt es unter "Schutz" eine Schaltfläche "Dokument bereinigen", mit der ALLES entfernt wird, was jedoch sichtbar ist (einschließlich der OCR-Textebene), und das Dokument in eine reduzierte Bitmap konvertiert wird.

Dave
quelle
0

Ich habe ein Tool für diesen kostenlosen PDF Redactor erstellt . Wenn Sie das Bild hochladen und einfach auf "Redigieren" klicken, wird Ihr PDF reduziert und die OCR entfernt. Wenn Sie möchten, können Sie auch Redaktionsmarkierungen auf das Dokument zeichnen.

Levinologie
quelle