PDF hat beim Kopieren und Einfügen verstümmelten Text

23

Ich versuche, Text aus einer PDF-Datei zu kopieren und einzufügen.

Wenn ich jedoch den Originaltext einfüge, ist es ein riesiges Durcheinander verstümmelter Zeichen. Der Text sieht wie folgt aus (dies ist nur ein kleiner Auszug):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

Ich habe es sowohl in Adobe als auch in Foxit PDF-Readern ausprobiert. Ich habe in Adobe Reader ein "Speichern als Text" durchgeführt und die resultierende Textdatei ist derselbe verstümmelte Text.

Irgendwelche Ideen, wie ich diesen Text unverständlich rausholen kann? (Abgesehen von der manuellen Eingabe muss viel Text extrahiert werden.)

ngm
quelle
Probieren Sie einige Screenreader-Dienstprogramme (die mit JPEG funktionieren, machen Sie einen Druckbildschirm und los geht's) oder gehen Sie auf eine andere Weise vor . (Nur eine "Vermutung", beißen Sie mich nicht dafür. Ich habe damals den ersten Weg benutzt. Ich hoffe, es gibt bequemere Wege).
Apache
Ähnliche Frage: superuser.com/questions/119393/…
Hugh Allen
Ich kann dieses Problem auch mit OS X zumindest ab 10.8.2 bestätigen. Ich habe ein bisschen Zeit damit verbracht, die PDF-Dateistruktur durchzuarbeiten, sehe aber leider keine Möglichkeit, den Schaden zu beheben. "PreFlight" von Acrobat Pro meldet Probleme mit der Datei, wenn diese mit dem PDF / A-Standard verglichen wird, und der Inventarbericht zeigt die Glyphen, die mit eindeutig falschen Unicode-Zeichen verknüpft sind. Ich habe einen Fehlerbericht mit Apple-ID 12655651 erstellt. Ich melde mich hier zurück, wenn ich Updates erhalte.
KenD
Mught hilfreich sein superuser.com/a/481510/153937
Ankit

Antworten:

11

Die einfachste Möglichkeit, dies zu umgehen, besteht darin, die Datei in einer neueren Version von Google Chrome mit integriertem PDF-Lese-Plugin zu öffnen . Dann können Sie die Suchfunktion von Chrome verwenden, um nach Text zu suchen, und das Kopieren und Einfügen funktioniert ordnungsgemäß.

Ich möchte den Kommentar von pipitas zu Shikis Antwort abstimmen, aber ich habe nicht die richtigen Antworten :( Das Problem ist möglicherweise die benutzerdefinierte Schriftkodierung, nicht die Verschlüsselung . Klicken Sie in Acrobat auf Datei -> Eigenschaften und dann auf die Registerkarte Schriftarten, um die Kodierung anzuzeigen und auf der Registerkarte Sicherheit, um festzustellen, ob es verschlüsselt ist.

acatalept
quelle
In der Tat war die benutzerdefinierte Schriftkodierung der Schuldige für mich. Chrome war jedoch nicht die Lösung. Ich habe das Problem teilweise gelöst, indem Ghostscript ein PDF aus der PS regeneriert hat (ich hatte das Glück, die PS-Quelle zu haben). Alle Zeichengruppen, auf die LaTeX Ligaturen anwendet (z. B. ff, c, fi usw.), werden im kopierten Text der PDF-Datei nicht angezeigt. Dies erfordert beim Kopieren / Einfügen eine gewisse Bearbeitung.
Fuhrmanator
1
Gleiches Problem mit Chrom
JinSnow
4

Ich habe dieses Problem bei von mir erstellten PDF-Dateien entdeckt und glaube, ich habe die Ursache des Problems ausfindig gemacht: Verwenden der Vorschau von Mac OS X, um die PDF-Dateigröße zu reduzieren.

Ich habe mit dem Colorsync-Dienstprogramm einige Quarzfilter erstellt, um Bilder in PDF-Dateien zu komprimieren und die Gesamtgröße der PDF-Dateien mit Bildern zu verringern. Wie hier beschrieben: http://www.macosxhints.com/article.php?story=20031106133852693

Ich habe festgestellt, dass ich problemlos Text aus der ursprünglichen (nicht komprimierten) PDF-Datei kopieren und einfügen kann. Nach dem Ausführen dieser PDF-Datei durch einen von mir erstellten Filter zum Reduzieren der Dateigröße wird die resultierende komprimierte PDF-Datei beim Kopieren und Einfügen nicht deutlich (sie sieht aus wie) die von Ihnen geposteten Zeichenfolgen).

Wenn Sie jedoch dasselbe Original-PDF über die Funktion "Dokument"> "Dateigröße reduzieren" in Adobe Acrobat Pro ausführen, kann das resultierende komprimierte PDF erfolgreich Text kopieren und einfügen.

Dies ist in Ihrem Fall nicht unbedingt hilfreich, vorausgesetzt, Ihre PDF-Datei wurde von einem anderen Ort empfangen und Sie können nicht zur Originalversion zurückkehren, wenn sie tatsächlich auf irgendeine Weise komprimiert wurde. Aber das könnte die Erklärung sein - dass die Datei irgendwie entstellt wurde, um die Dateigröße zu reduzieren.

Dies kann hilfreich sein, wenn Inhaltsersteller ähnliche Probleme beim Kopieren und Einfügen von Text aus PDF-Dateien haben. Gehen Sie beim Verkleinern von PDF-Dateien mit OS X Quartz-Filtern vorsichtig vor!

--edit-- Dieses Problem ist mir auch beim Kombinieren von PDFs mit der Vorschau aufgefallen. Die beiden Quell-PDFs können problemlos kopiert und eingefügt werden. Wenn Sie jedoch eine Seite aus einer Datei in eine andere ziehen und dann die kombinierte PDF-Datei speichern, kann der Text im kombinierten Dokument nicht kopiert / eingefügt werden. Hierbei handelt es sich um zwei Dokumente, die beide gleichzeitig mit Filemaker Pro 11 auf dem Mac erstellt wurden. Ich kann mir nicht vorstellen, dass sie unterschiedliche Codierungen oder ähnliches aufweisen.

Daniel
quelle
Ich habe ein paar PDF-Dateien von einem Mac OS-Benutzer erhalten. Select ist in Ordnung, aber Copy & Paste würde Ihnen nur Müll geben. Probieren Sie eine Reihe von PDF-zu-Wort-Konvertern aus, einschließlich googledoc, adobe als Text speichern. Alle geben verstümmelten Text aus.
9.
Ich vermute, dass das Verkleinern von OS X PDF der Schuldige ist. Kennt da draußen jemand Mittel, um eine solche Operation rückgängig zu machen? Vielen Dank!
9.
Ich habe die PDF-Datei auf einem (virtuellen) Drucker ausgedruckt und mir wurden PDF-Dateien in 4x-Größe aufgeblasen. Bei der gedruckten Datei handelt es sich offensichtlich um ein Bild. Es kann keine Textauswahl getroffen werden, während das Original ausgewählt werden kann (jedoch verstümmelt).
9.
4

Es gibt noch einen anderen sehr einfachen Weg, um dieses Problem zu umgehen :)

Drucken Sie das Dokument einfach mit CutePdf, Adobe 2 Pdf oder einem ähnlichen Gerät aus. Das Fazit ist, dass Sie in das PDF-Format drucken müssen.

In vielen Fällen kann das Problem dadurch leicht behoben werden.

Nick Olszanski
quelle
2

Lösung, die bei mir funktioniert hat:

  • Laden Sie das Dokument in Google Drive / Docs hoch
  • Google wird es (ab 2013) als PDF importieren
  • Öffnen Sie die PDF-Ansicht und wählen Sie " Datei" > " Öffnen mit" > " Google Text & Tabellen"
  • Der Export des Dokuments dauert ungefähr eine Minute

Die Ergebnisse waren nicht perfekt, aber ich bin zu 80% dorthin gekommen und habe genug Text erhalten, damit ich nicht alles neu schreiben musste!

Gavin Miller
quelle
2

Gelöst: (arbeitete für mich auf Windows 8, Acrobat XI, Office 2010)

Option 1:

  1. Drucken aus Acrobat mit "Microsoft XPS Document Writer" Die Ausgabe lautet: "Ihr Dateiname.oxps"
  2. Öffne "... oxps" mit XPS Viewer. * (siehe Downloadlink in den Kommentaren unten)
  3. Drucken Sie in PDF (Acrobat PDF oder CutePDF) mit der höchsten Auflösung (600 DPI).
  4. Öffnen Sie mit Acrobat und verwenden Sie die OCR-Option (Searchable Image (Exact)).

BINGO!

Bemerkungen:

  • Wenn Sie die höchste Auflösung und das durchsuchbare Bild (exakt) verwenden, wird Ihr Text gespeichert, ohne dass sein sauberes Erscheinungsbild verloren geht. Eine niedrige Auflösung macht Ihren Text lesbar, sieht aber beschissen aus.
  • Laden Sie Microsoft XPS (Dateien) herunter: http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • Wenn Sie nicht wissen, was OCR ist oder wo Sie das durchsuchbare Bild (genau) finden oder wie Sie mit "Microsoft XPS Document Writer" drucken, gehen Sie bitte auf eigene Faust auf Google, um die bestmöglichen Ergebnisse zu erzielen.

* Nur herunterladen, wenn Sie XPS nicht installiert haben.

Option 2:

Machen Sie es ähnlich, aber speichern Sie es als Bild (png, tiff, ...), dann müssen Sie alle Seiten wieder in einer "PDF" -Datei zusammenfassen.

user210118
quelle
1
Die Schritte 1, 2 und 3 scheinen ein langer Weg zu sein, als Sie mit Schritt 3 „Drucken als PDF“ fortfahren könnten. (ZB aus Ihrem PDF-Reader heraus). Kein Umweg über XPS.
Hennes
@Hennes Wenn Sie Schritt 4 ausführen, wird der Fehler Acrobat could not perform OCR on this page because: This page contains renderable text
angezeigt
'Renderbarer Text' klingt nach etwas, das noch gezeichnet (gerendert) werden muss. Möglicherweise bereits gemacht und als OCR-fähige Bitmap gespeichert, wenn Sie über XPS gehen. Aber das ist nur eine Vermutung.
Hennes
1

Es besteht die Gefahr, dass die Informationen überhaupt nicht abrufbar sind. PDF-Dokumente sind im Wesentlichen ein Dokument über einem anderen, ein einfacher Text, das andere ein Bild. Wenn Sie aus dem Dokument kopieren und einfügen, markieren Sie den Text, während Sie das Bild betrachten. In die Zwischenablage wird jedoch der entsprechende Teil des Textteils kopiert.

Abhängig von der Art und Weise, wie das Dokument erstellt wird, können Qualität und Verfügbarkeit des Textteils sehr unterschiedlich sein. Wenn Sie ein Textverarbeitungsdokument im PDF-Format mit Acrobat, Word, einem PDF-Druckertreiber oder einer anderen Methode speichern, ist die Qualität normalerweise hervorragend, da die Textdatei aus dem Text des Originals erstellt werden kann. Einige Sonderzeichen können verzerrt sein, aber normaler Text ist in Ordnung.

Wenn das Dokument jedoch aus einem gescannten Bild erstellt wird, wird der Textteil in der Regel durch OCR-Verarbeitung des Bildes erstellt. Dies kann zu ziemlich schlechten Ergebnissen führen, insbesondere wenn das Original für diesen Zweck nicht optimal ist.

Ein fehlerhaftes Programm, das zum Erstellen der PDF-Datei verwendet wurde, oder die falschen Einstellungen können auch dazu führen, dass der Textteil vollständig verstümmelt wird, da möglicherweise einige Arten der Verschlüsselung für die Datei ausgeführt werden, nachdem sie erstellt wurde.

Die Quintessenz ist, wenn der Textteil des Dokuments wirklich schlecht ist, gibt es keine Möglichkeit, ihn zu verbessern. Am besten entfernen Sie den Textteil vollständig und lassen das Programm den OCR-Vorgang wiederholen. Ich denke, dass dies in Acrobat möglich ist, bin mir aber nicht ganz sicher.

Emil
quelle
1

Ein möglicher Grund hierfür könnte sein, dass beim Einbetten von Schriftarten in die PDF-Datei eine benutzerdefinierte Codierung verwendet wurde, die beim Kopieren von Text aus der PDF-Datei nicht korrekt angewendet wird.

Sie können verschiedene Methoden anwenden, um zu verhindern, dass Sie den gesamten Inhalt manuell eingeben.

  1. Haben Sie versucht, den Text mit einem der Tools "pdftotext.exe" zu extrahieren, die über das Internet heruntergeladen werden können? (Ich würde das in ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip enthaltene empfehlen .)
  2. Die neueste Version von Acrobat Reader verfügt über die Option "Als Text speichern ..." . Dabei wird nicht "copy'n'paste" verwendet (was den verstümmelten Text ergab), sondern es werden wahrscheinlich dieselben Softwareroutinen verwendet, die zum Rendern des Texts auf dem Bildschirm verwendet wurden, und es können daher nützlichere Ergebnisse erzielt werden.
  3. Wenn '2.' funktioniert nicht und wenn Sie Zugriff auf Acrobat Professional haben: Versuchen Sie, die PDF-Datei mithilfe eines der Distiller-Profile mit eingebetteten Schriftarten neu zu destillieren.
  4. Wenn '3.' funktioniert nicht, obwohl Sie Zugriff auf Acrobat Professional haben: Versuchen Sie, die PDF-Datei erneut zu destillieren. Verwenden Sie diesmal jedoch die Option "Als Bild drucken" (verfügbar über die Schaltfläche "Erweitert" in der unteren linken Ecke des Hauptdrucks) Dialog). Stellen Sie sicher, dass Sie 600 dpi verwenden (obwohl dies zu einer großen Datei führen kann). Das resultierende PDF öffnen Sie dann erneut in Acrobat Pro. Wenden Sie nun den 'OCR'-Algorithmus von Acrobat auf die Datei an. Dies führt zu eingebettetem Text (nicht zum Rendern auf dem Bildschirm im Reader, sondern zum Suchen und Hervorheben von Zeichenfolgen). Jetzt können Sie erneut versuchen, den Text aus dieser PDF-Datei mit einer der oben beschriebenen Methoden zu extrahieren.
Kurt Pfeifle
quelle
Für mich mit Acrobat Pro XI zum Nachdruck zu PDF - aber mit „Als Bild drucken“ geprüft (bei 600 dpi) im Erweitert ... Taste / Unterdialog aus dem Drucken ... Dialog - der Trick wurde. Dann können Sie das Ergebnis endlich richtig OCR . Keine der anderen auf dieser Seite erwähnten Lösungen hat funktioniert. Hinweis: Bei einem großen Dokument kann dies eine Weile dauern und das PDF-Ergebnis kann sehr groß sein.
Glenn Slayden
@GlennSlayden: Ich bin froh, dass mein Rat für Sie funktioniert hat ... Was hat daran gefehlt, dass Sie dachten, es hätte noch keine Gegenstimme verdient?
Kurt Pfeifle
Ähm, ich habe zugestimmt. Es wird für mich immer noch als "1" angezeigt. Meine einzige Beschwerde war, dass Ihre Antwort ganz unten war und ich eine Weile
gebraucht habe
Ok, @GlennSlayden, dann muss diese Aufwertung schon lange her sein (lange vor deinem Kommentar oben).
Kurt Pfeifle
Nein, ich habe "vor 12 Stunden" hochgestuft, als ich den Kommentar schrieb ... Ich sehe immer noch einen blauen Pfeil, der (glaube ich) bedeutet, dass meine Stimme (die eine) Stimme ist, die gerade registriert ist. Und ich erinnere mich, dass es '0' war, bevor ich letzte Nacht aufgestimmt habe.
Glenn Slayden
1

Einer meiner Benutzer hat gerade dasselbe Problem gemeldet (PDF wurde mit Distiller für Windows erstellt), dass kopierter Text nur verstümmelter Text ist und er nicht in einem Dokument suchen konnte. Ich habe es auf meinem Mac versucht und kein Problem gefunden. Es stellte sich heraus, dass ich Apples Preview-Anwendung verwendete, während er Adobe Reader auf seinem Windows-Computer verwendete. Dann habe ich versucht, Adobe Reader auf meinem Mac und konfrontiert den gleichen Effekt. Für mich sieht es so aus:

  • Adobe Reader sucht im gespeicherten Text.

  • Die Vorschau von Apple kopiert und sucht, nachdem der Kodierungsvektor angewendet wurde.

Ich kann das nicht mit Sicherheit sagen, aber es würde meine Beobachtung erklären. Und es würde in der Tat erlauben, alle Arten von Kodierungen vorzunehmen, wenn kombinierte / reduzierte Dateien gespeichert werden, wie in einem anderen Beitrag hier beschrieben: Mit Vorschau können Sie den Text immer noch wieder herausholen.

Zuerst dachte ich, es wäre logischer, die Teilmenge der eingebetteten Schrift als zusammenhängende Einträge zu codieren, anstatt Löcher darin zu lassen und die ursprüngliche Zeichenposition zu verwenden. Aber dann wurde mir klar, dass durch die Verwendung eines Kodierungsvektors für die Teilmenge der Schriftarten mit Originaleinträgen für Zeichen, die häufig verwendet werden, weniger Bits in ihrem Byte auf 1 gesetzt und besser komprimiert werden können (dies kann die Entrophie des Zeichensatzes verringern) Gesamttext auf diese Weise).

Reuti
quelle
1

Wenn Sie es in Google Text & Tabellen hochladen und die Option " Ansicht"> "Nur HTML" verwenden , wird textkopierbarer Text zu ca. 80% korrekt angezeigt, wobei ein wenig Leerzeichen fehlen.

Dieser Thread mit der akzeptierten Antwort auf dasselbe Problem erklärt dies anhand eines funktionierenden Beispiels.

Teqchiqe
quelle
1

Ich habe die Google Text & Tabellen-Option nicht ausprobiert, da sie in meinem Büro immer noch nicht unterstützt wird. Durch Drucken der Datei auf "ScanSoft PDF Create!" Von "Acrobat 9" (druckt die gesamte Datei in ein Bild) und Öffnen der gedruckten Datei in "Nuance PDF Converter" (es hat mich gefragt, ob ich die Bilddatei durchsuchbar und bearbeitbar machen möchte, für die ich mich entschieden habe), konnte ich Ich habe ein Word-Dokument, aus dem ich leicht kopieren und einfügen kann. Es ist jedoch nicht perfekt mit einer Genauigkeit von nur ca. 80-90%. Aber hey, Sie haben immer noch die ursprüngliche PDF-Datei zum Vergleichen und Versetzen der Teile, die einfach nicht repariert werden können. Spart Zeit beim Tippen. Mein 2c.

Jhonrie
quelle
0

Ich habe mit einer alten Version von Scansoft PDF Converter für Windows XP einige bearbeitbare Text-PDFs erstellt und die Seiten dann in Macs Vorschau-Programm kombiniert. Für jede einzelne Seite konnte ich mit Adobe Reader auf dem Mac Text korrekt suchen, kopieren und exportieren. In der Vorschau kombiniert und als eine Datei gespeichert, sahen alle auf dem Bildschirm gut aus, aber nur wenige Passagen konnten korrekt durchsucht / exportiert werden. Dieses Problem hat mich hierher gebracht.

Die Beiträge hier gaben mir einige gute Hinweise (danke!). Ich habe mir die Dateieigenschaften für Schriftarten angesehen. Die einzelnen Auslagerungsdateien von Win XP (wo alles in Ordnung ist) sagten, dass die Kodierung ANSI war. Die in der Vorschau kombinierte Datei (bei der der kopierte Text verstümmelt ist) zeigte die Codierung für die meisten Schriftarten als "Eingebaut", einige als "Römisch".

Die Lösung für mein Problem war die ganze Zeit unter meiner Nase - das Scansoft-Programm selbst kann Dateien kombinieren. Als ich Scansofts Combiner verwendete und die Datei auf dem Mac öffnete, wurden alle Schriftarten als ANSI-codiert angezeigt und der gesamte Text wurde perfekt exportiert / kopiert. Warum um alles in der Welt ich sie überhaupt nicht in PDF Converter kombiniert habe, weiß ich nicht. Danke, Poster!

Gleiches gilt für das Öffnen der Dateien auf einem Linux-System.

Ich weiß, dass dies nicht die Windows-Probleme erklärt - es sei denn, das PDF hatte einen ähnlichen gemischten Ursprung.

Jimbo
quelle