Bei einigen PDF-Dateien wird beim Kopieren von Text Müll (" mojibake ") erzeugt (obwohl sie in Ordnung sind). Dies macht es unmöglich, sie zu durchsuchen (was auch immer Sie suchen, entspricht nicht dem Müll).
Hat jemand eine einfache Problemumgehung?
Beispiele:
- TEAC TV Handbuch EU2816STF (führt zu den oben genannten Problemen in Adobe Reader auf Windows und Mac, funktioniert aber in der Vorschau auf einem Mac)
- Leadtek Winfast PVR2 Handbuch (FTP-Link; hat auch Probleme in der Vorschau auf einem Mac)
- Swann TV-Tunerkarte Handbuch (FTP-Link; hat auch Probleme in der Vorschau auf einem Mac)
- Phonedisc-Lizenzvereinbarung (aus dem inzwischen aufgelösten DTMS )
- Vierteljährlicher Fondsüberblick über Macquarie IFP
- BAN-TACS Small Business Booklet (archivierte Version)
- Flyer zum Osterfest 2004 (auch aus dem Archiv)
Ich verwende Adobe Reader (neueste Version) für Windows. Vielleicht hilft ein alternativer Viewer? Ich suche eine kostenlose Lösung für Windows. Open-Source wäre noch besser.
Bearbeiten: Die Dokumente für das Tool " Multivalent Extract Text" enthalten eine gute Zusammenfassung, warum Probleme auftreten können, z. B .: (zitiertes Dokument, zuletzt geändert im Januar 2006)
- Text verfügt möglicherweise nicht über eine Unicode-Zuordnung. PDF Type 3-Schriftarten tun dies häufig nicht, und TeX DVI verfügt über Zeichen, die keine Unicode-Entsprechungen aufweisen.
- Die Unicode-Codierung ist möglicherweise fehlerhaft. Open Office ordnet einige Zeichen demselben Unicode zu, was dazu führt, dass der betreffende Buchstabe gelöscht und verdoppelt wird.
Ich denke, die ultimative Lösung in diesen Fällen wäre, jedes Zeichen in einer Schrift zu markieren, um herauszufinden, welches Zeichen es wirklich ist. Beachten Sie, dass dies einfacher ist, als ein geräuschvoll gescanntes Dokument mit OCR zu versehen, da die genaue Form des Symbols verfügbar ist (bei unendlicher Auflösung, da es sich um ein "Vektor" -Bild handelt).
quelle
clipbrd.exe
(siehe mydigitallife.info/2008/11/06/… ) können Sie sehen, was sich in der Zwischenablage befindet. Was gibt dir das?Antworten:
Vielleicht Foxit Reader ?
Für was es wert ist , ich habe gerade überprüft die PDF Sie mit Safari verbunden 4.0.4 auf Mac OS X 10.6.2 und während es ist einige Engrish , die PDF es einwandfrei ohne Bildschirm „Müll“ macht. Vielleicht haben Sie Unicode-Probleme (häufiger unter Windows als unter Mac OS)?
quelle
Die einfachste Möglichkeit, dies zu umgehen, besteht darin, die Datei in einer neueren Version von Google Chrome mit integriertem PDF-Lese-Plugin zu öffnen . Dann können Sie die Suchfunktion von Chrome verwenden, um nach Text zu suchen, und das Kopieren und Einfügen funktioniert ordnungsgemäß.
quelle
Beispiel für das TV-Handbuch : Dasselbe Problem in Adobe Reader 8.1.2 auf einem Mac, aber keine Probleme mit der Mac-Vorschau zum Kopieren oder Durchsuchen von Text. Wenn Sie es an ein Google Mail-Konto senden und dann "Anzeigen" und dann "Nur HTML" auswählen, wird der Text angezeigt. Aber Adobe Reader mag es nicht.
In den Dokumenteigenschaften wird für die Schriftarten "Codierung: Benutzerdefiniert" angezeigt. Ein anderes Dokument zeigt Dinge wie "Encoding: Ansi" oder "Roman" und weist weder in Preview noch in Adobe Reader auf einem Mac Probleme auf:
Sowohl das Leadtek- als auch das Swann- Beispiel weisen jedoch Probleme in Preview auf einem Mac und in Google Mail auf und beide zeigen "Encoding: Identity-H". Der Phonedisc- Test schlägt mit "Encoding: Custom" ebenfalls fehl.
Verwirrend und nicht konsistent, aber in einigen Adobe-Foren habe ich die folgende Erklärung für ein weiteres Beispiel gefunden, das "Encoding: Custom" (Hervorhebung von mir) zeigt:
Dies erklärt nicht, warum Macs Preview (und anscheinend auch Infix) einige der Beispiele verarbeiten kann, wenn Adobe Reader trotz "Encoding: Custom" fehlschlägt. Vielleicht hat Preview keine Probleme, wenn die genaue Schriftart auf dem Computer selbst vorhanden ist? Oder ist es vielleicht nur eine Vermutung einer Kodierung, die für einige, aber nicht für alle Dokumente funktioniert?
Was auch immer dies verursacht: Wenn die Weitergabe über Google Text & Tabellen oder Google Mail nicht funktioniert, ist es möglicherweise die einfachste (aber alles andere als einfache) Lösung, TIFF zu speichern und dann OCR auszuführen . Dienste wie Evernote tun dies möglicherweise im Handumdrehen (OCR für Bilder; ich bezweifle, dass OCR für PDFs durchgeführt wird).
quelle
Der Download von Datei 1 schlug für mich fehl, Datei 2 konnte ich mit xpdf, einem schnellen und quelloffenen PDF-Viewer, öffnen. Ich denke, es kann keine Formulare verarbeiten, aber für reinen Text und Grafiken bevorzuge ich es wegen seiner schnellen Startzeit.
quelle
Leider kann nicht geholfen werden. PDF-Dokumente enthalten eigentlich keine Buchstaben, jedoch Buchstabenformen. Mit anderen Worten, anstatt einen Buchstaben zu lesen und auf dem Bildschirm zu zeichnen, zeichnet Adobe Reader wie jede andere PDF-Leseanwendung einfach die in der Datei codierten Vektorgrafiken .
Einige PDF-Reader verfügen jedoch über eine Software, mit der die Form analysiert und der Text mithilfe der Texterkennung wiederhergestellt werden kann. Es funktioniert genauso, als hätten Sie ein Papier mit gedrucktem Text gescannt und Software wie ABBYY FineReader verwendet, um es wieder in Text umzuwandeln. Aufgrund der unendlich hohen Qualität von Vektorzeichnungen sind die Ergebnisse jedoch in der Regel viel besser als bei gescannten Dokumenten.
Einige Dokumente können mit dem Adobe Reader vor dem Konvertieren in Text geschützt werden. Zum Beispiel können Buchstaben in mehreren überlappenden Formen so gezeichnet werden, dass sie optisch immer noch gleich aussehen, während die Texterkennungssoftware keinen Text erkennt. Ihr Dokument ist ein Beispiel für einen solchen Schutz.
Eine Möglichkeit wäre, das Dokument in ein Bild zu drucken und es von einer Texterkennungssoftware erkennen zu lassen. Eine höhere Auflösung des Bildes verbessert die Qualität. Diese Methode ist jedoch nicht wirklich praktisch.
quelle