Wie erhalte ich CJK-Unicode-Zeichen aus einer PDF-Datei, in der zusätzliche Zeichen für den privaten Gebrauch verwendet werden?

Ich habe mehrere PDF-Dokumente (wie dieses ), die scheinbar mit chinesischen Standardideogrammen geschrieben wurden, aber wenn ich den Text extrahiere, stellt sich heraus, dass er mit Zeichen aus den zusätzlichen privaten Unicode-Verwendungsbereichen codiert ist.

Gibt es eine zuverlässige Möglichkeit, die Zeichen für den privaten Gebrauch wieder den entsprechenden CJK-Zeichen zuzuordnen?

pdf unicode chinese Ben
quelle

Antworten:

Der allgemeine Fluss ist wahrscheinlich

Schrift aus PDF extrahieren
Versuchen Sie, die Schriftart mit einer anderen bekannten Codierung zu vergleichen und festzustellen, ob es sich um eine solche handelt
Oder alternativ könnte es etwas sein, das tatsächlich privat genutzt wird
Ermitteln Sie eine umgekehrte Beziehung, indem Sie die Konvertierungstabelle überprüfen, wenn bekannt ist, um welche Codierung es sich handelt. Andernfalls arbeiten Sie mit der extrahierten Schriftart aus PDF

user930067
quelle