Ich habe mehrere PDF-Dokumente (wie dieses ), die scheinbar mit chinesischen Standardideogrammen geschrieben wurden, aber wenn ich den Text extrahiere, stellt sich heraus, dass er mit Zeichen aus den zusätzlichen privaten Unicode-Verwendungsbereichen codiert ist.
Gibt es eine zuverlässige Möglichkeit, die Zeichen für den privaten Gebrauch wieder den entsprechenden CJK-Zeichen zuzuordnen?