Wie erhalte ich CJK-Unicode-Zeichen aus einer PDF-Datei, in der zusätzliche Zeichen für den privaten Gebrauch verwendet werden?

1

Ich habe mehrere PDF-Dokumente (wie dieses ), die scheinbar mit chinesischen Standardideogrammen geschrieben wurden, aber wenn ich den Text extrahiere, stellt sich heraus, dass er mit Zeichen aus den zusätzlichen privaten Unicode-Verwendungsbereichen codiert ist.

Gibt es eine zuverlässige Möglichkeit, die Zeichen für den privaten Gebrauch wieder den entsprechenden CJK-Zeichen zuzuordnen?

Ben
quelle

Antworten:

0

Der allgemeine Fluss ist wahrscheinlich

  • Schrift aus PDF extrahieren
  • Versuchen Sie, die Schriftart mit einer anderen bekannten Codierung zu vergleichen und festzustellen, ob es sich um eine solche handelt
  • Oder alternativ könnte es etwas sein, das tatsächlich privat genutzt wird
  • Ermitteln Sie eine umgekehrte Beziehung, indem Sie die Konvertierungstabelle überprüfen, wenn bekannt ist, um welche Codierung es sich handelt. Andernfalls arbeiten Sie mit der extrahierten Schriftart aus PDF
user930067
quelle