Ich versuche, Text aus einer PDF-Datei zu kopieren und einzufügen.
Wenn ich jedoch den Originaltext einfüge, ist es ein riesiges Durcheinander verstümmelter Zeichen. Der Text sieht wie folgt aus (dies ist nur ein kleiner Auszug):
4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03!
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$!
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40!
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'!
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40!
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(!
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97!
)*+*+, C<88,?>8513AG<5A14,
Ich habe es sowohl in Adobe als auch in Foxit PDF-Readern ausprobiert. Ich habe in Adobe Reader ein "Speichern als Text" durchgeführt und die resultierende Textdatei ist derselbe verstümmelte Text.
Irgendwelche Ideen, wie ich diesen Text unverständlich rausholen kann? (Abgesehen von der manuellen Eingabe muss viel Text extrahiert werden.)
Antworten:
Die einfachste Möglichkeit, dies zu umgehen, besteht darin, die Datei in einer neueren Version von Google Chrome mit integriertem PDF-Lese-Plugin zu öffnen . Dann können Sie die Suchfunktion von Chrome verwenden, um nach Text zu suchen, und das Kopieren und Einfügen funktioniert ordnungsgemäß.
Ich möchte den Kommentar von pipitas zu Shikis Antwort abstimmen, aber ich habe nicht die richtigen Antworten :( Das Problem ist möglicherweise die benutzerdefinierte Schriftkodierung, nicht die Verschlüsselung . Klicken Sie in Acrobat auf Datei -> Eigenschaften und dann auf die Registerkarte Schriftarten, um die Kodierung anzuzeigen und auf der Registerkarte Sicherheit, um festzustellen, ob es verschlüsselt ist.
quelle
Ich habe dieses Problem bei von mir erstellten PDF-Dateien entdeckt und glaube, ich habe die Ursache des Problems ausfindig gemacht: Verwenden der Vorschau von Mac OS X, um die PDF-Dateigröße zu reduzieren.
Ich habe mit dem Colorsync-Dienstprogramm einige Quarzfilter erstellt, um Bilder in PDF-Dateien zu komprimieren und die Gesamtgröße der PDF-Dateien mit Bildern zu verringern. Wie hier beschrieben: http://www.macosxhints.com/article.php?story=20031106133852693
Ich habe festgestellt, dass ich problemlos Text aus der ursprünglichen (nicht komprimierten) PDF-Datei kopieren und einfügen kann. Nach dem Ausführen dieser PDF-Datei durch einen von mir erstellten Filter zum Reduzieren der Dateigröße wird die resultierende komprimierte PDF-Datei beim Kopieren und Einfügen nicht deutlich (sie sieht aus wie) die von Ihnen geposteten Zeichenfolgen).
Wenn Sie jedoch dasselbe Original-PDF über die Funktion "Dokument"> "Dateigröße reduzieren" in Adobe Acrobat Pro ausführen, kann das resultierende komprimierte PDF erfolgreich Text kopieren und einfügen.
Dies ist in Ihrem Fall nicht unbedingt hilfreich, vorausgesetzt, Ihre PDF-Datei wurde von einem anderen Ort empfangen und Sie können nicht zur Originalversion zurückkehren, wenn sie tatsächlich auf irgendeine Weise komprimiert wurde. Aber das könnte die Erklärung sein - dass die Datei irgendwie entstellt wurde, um die Dateigröße zu reduzieren.
Dies kann hilfreich sein, wenn Inhaltsersteller ähnliche Probleme beim Kopieren und Einfügen von Text aus PDF-Dateien haben. Gehen Sie beim Verkleinern von PDF-Dateien mit OS X Quartz-Filtern vorsichtig vor!
--edit-- Dieses Problem ist mir auch beim Kombinieren von PDFs mit der Vorschau aufgefallen. Die beiden Quell-PDFs können problemlos kopiert und eingefügt werden. Wenn Sie jedoch eine Seite aus einer Datei in eine andere ziehen und dann die kombinierte PDF-Datei speichern, kann der Text im kombinierten Dokument nicht kopiert / eingefügt werden. Hierbei handelt es sich um zwei Dokumente, die beide gleichzeitig mit Filemaker Pro 11 auf dem Mac erstellt wurden. Ich kann mir nicht vorstellen, dass sie unterschiedliche Codierungen oder ähnliches aufweisen.
quelle
Es gibt noch einen anderen sehr einfachen Weg, um dieses Problem zu umgehen :)
Drucken Sie das Dokument einfach mit CutePdf, Adobe 2 Pdf oder einem ähnlichen Gerät aus. Das Fazit ist, dass Sie in das PDF-Format drucken müssen.
In vielen Fällen kann das Problem dadurch leicht behoben werden.
quelle
Lösung, die bei mir funktioniert hat:
Die Ergebnisse waren nicht perfekt, aber ich bin zu 80% dorthin gekommen und habe genug Text erhalten, damit ich nicht alles neu schreiben musste!
quelle
Gelöst: (arbeitete für mich auf Windows 8, Acrobat XI, Office 2010)
Option 1:
BINGO!
Bemerkungen:
* Nur herunterladen, wenn Sie XPS nicht installiert haben.
Option 2:
Machen Sie es ähnlich, aber speichern Sie es als Bild (png, tiff, ...), dann müssen Sie alle Seiten wieder in einer "PDF" -Datei zusammenfassen.
quelle
Acrobat could not perform OCR on this page because: This page contains renderable text
Es besteht die Gefahr, dass die Informationen überhaupt nicht abrufbar sind. PDF-Dokumente sind im Wesentlichen ein Dokument über einem anderen, ein einfacher Text, das andere ein Bild. Wenn Sie aus dem Dokument kopieren und einfügen, markieren Sie den Text, während Sie das Bild betrachten. In die Zwischenablage wird jedoch der entsprechende Teil des Textteils kopiert.
Abhängig von der Art und Weise, wie das Dokument erstellt wird, können Qualität und Verfügbarkeit des Textteils sehr unterschiedlich sein. Wenn Sie ein Textverarbeitungsdokument im PDF-Format mit Acrobat, Word, einem PDF-Druckertreiber oder einer anderen Methode speichern, ist die Qualität normalerweise hervorragend, da die Textdatei aus dem Text des Originals erstellt werden kann. Einige Sonderzeichen können verzerrt sein, aber normaler Text ist in Ordnung.
Wenn das Dokument jedoch aus einem gescannten Bild erstellt wird, wird der Textteil in der Regel durch OCR-Verarbeitung des Bildes erstellt. Dies kann zu ziemlich schlechten Ergebnissen führen, insbesondere wenn das Original für diesen Zweck nicht optimal ist.
Ein fehlerhaftes Programm, das zum Erstellen der PDF-Datei verwendet wurde, oder die falschen Einstellungen können auch dazu führen, dass der Textteil vollständig verstümmelt wird, da möglicherweise einige Arten der Verschlüsselung für die Datei ausgeführt werden, nachdem sie erstellt wurde.
Die Quintessenz ist, wenn der Textteil des Dokuments wirklich schlecht ist, gibt es keine Möglichkeit, ihn zu verbessern. Am besten entfernen Sie den Textteil vollständig und lassen das Programm den OCR-Vorgang wiederholen. Ich denke, dass dies in Acrobat möglich ist, bin mir aber nicht ganz sicher.
quelle
Ein möglicher Grund hierfür könnte sein, dass beim Einbetten von Schriftarten in die PDF-Datei eine benutzerdefinierte Codierung verwendet wurde, die beim Kopieren von Text aus der PDF-Datei nicht korrekt angewendet wird.
Sie können verschiedene Methoden anwenden, um zu verhindern, dass Sie den gesamten Inhalt manuell eingeben.
quelle
Einer meiner Benutzer hat gerade dasselbe Problem gemeldet (PDF wurde mit Distiller für Windows erstellt), dass kopierter Text nur verstümmelter Text ist und er nicht in einem Dokument suchen konnte. Ich habe es auf meinem Mac versucht und kein Problem gefunden. Es stellte sich heraus, dass ich Apples Preview-Anwendung verwendete, während er Adobe Reader auf seinem Windows-Computer verwendete. Dann habe ich versucht, Adobe Reader auf meinem Mac und konfrontiert den gleichen Effekt. Für mich sieht es so aus:
Adobe Reader sucht im gespeicherten Text.
Die Vorschau von Apple kopiert und sucht, nachdem der Kodierungsvektor angewendet wurde.
Ich kann das nicht mit Sicherheit sagen, aber es würde meine Beobachtung erklären. Und es würde in der Tat erlauben, alle Arten von Kodierungen vorzunehmen, wenn kombinierte / reduzierte Dateien gespeichert werden, wie in einem anderen Beitrag hier beschrieben: Mit Vorschau können Sie den Text immer noch wieder herausholen.
Zuerst dachte ich, es wäre logischer, die Teilmenge der eingebetteten Schrift als zusammenhängende Einträge zu codieren, anstatt Löcher darin zu lassen und die ursprüngliche Zeichenposition zu verwenden. Aber dann wurde mir klar, dass durch die Verwendung eines Kodierungsvektors für die Teilmenge der Schriftarten mit Originaleinträgen für Zeichen, die häufig verwendet werden, weniger Bits in ihrem Byte auf 1 gesetzt und besser komprimiert werden können (dies kann die Entrophie des Zeichensatzes verringern) Gesamttext auf diese Weise).
quelle
Wenn Sie es in Google Text & Tabellen hochladen und die Option " Ansicht"> "Nur HTML" verwenden , wird textkopierbarer Text zu ca. 80% korrekt angezeigt, wobei ein wenig Leerzeichen fehlen.
Dieser Thread mit der akzeptierten Antwort auf dasselbe Problem erklärt dies anhand eines funktionierenden Beispiels.
quelle
Ich habe die Google Text & Tabellen-Option nicht ausprobiert, da sie in meinem Büro immer noch nicht unterstützt wird. Durch Drucken der Datei auf "ScanSoft PDF Create!" Von "Acrobat 9" (druckt die gesamte Datei in ein Bild) und Öffnen der gedruckten Datei in "Nuance PDF Converter" (es hat mich gefragt, ob ich die Bilddatei durchsuchbar und bearbeitbar machen möchte, für die ich mich entschieden habe), konnte ich Ich habe ein Word-Dokument, aus dem ich leicht kopieren und einfügen kann. Es ist jedoch nicht perfekt mit einer Genauigkeit von nur ca. 80-90%. Aber hey, Sie haben immer noch die ursprüngliche PDF-Datei zum Vergleichen und Versetzen der Teile, die einfach nicht repariert werden können. Spart Zeit beim Tippen. Mein 2c.
quelle
Ich habe mit einer alten Version von Scansoft PDF Converter für Windows XP einige bearbeitbare Text-PDFs erstellt und die Seiten dann in Macs Vorschau-Programm kombiniert. Für jede einzelne Seite konnte ich mit Adobe Reader auf dem Mac Text korrekt suchen, kopieren und exportieren. In der Vorschau kombiniert und als eine Datei gespeichert, sahen alle auf dem Bildschirm gut aus, aber nur wenige Passagen konnten korrekt durchsucht / exportiert werden. Dieses Problem hat mich hierher gebracht.
Die Beiträge hier gaben mir einige gute Hinweise (danke!). Ich habe mir die Dateieigenschaften für Schriftarten angesehen. Die einzelnen Auslagerungsdateien von Win XP (wo alles in Ordnung ist) sagten, dass die Kodierung ANSI war. Die in der Vorschau kombinierte Datei (bei der der kopierte Text verstümmelt ist) zeigte die Codierung für die meisten Schriftarten als "Eingebaut", einige als "Römisch".
Die Lösung für mein Problem war die ganze Zeit unter meiner Nase - das Scansoft-Programm selbst kann Dateien kombinieren. Als ich Scansofts Combiner verwendete und die Datei auf dem Mac öffnete, wurden alle Schriftarten als ANSI-codiert angezeigt und der gesamte Text wurde perfekt exportiert / kopiert. Warum um alles in der Welt ich sie überhaupt nicht in PDF Converter kombiniert habe, weiß ich nicht. Danke, Poster!
Gleiches gilt für das Öffnen der Dateien auf einem Linux-System.
Ich weiß, dass dies nicht die Windows-Probleme erklärt - es sei denn, das PDF hatte einen ähnlichen gemischten Ursprung.
quelle