Als «unicode» getaggte Fragen

Unicode soll ein universeller Zeichensatz sein, der alle für geschriebenen Text erforderlichen Zeichen beschreibt und alle Schriftsysteme, technischen Symbole und Satzzeichen enthält.

432
Sollte UTF-16 als schädlich angesehen werden?

Ich werde fragen, was wahrscheinlich eine ziemlich kontroverse Frage ist: "Sollte eine der beliebtesten Kodierungen, UTF-16, als schädlich angesehen werden?" Warum stelle ich diese Frage? Wie vielen Programmierern ist bekannt, dass UTF-16 tatsächlich eine Kodierung mit variabler Länge ist? Damit...

41
Warum gibt es mehrere Unicode-Codierungen?

Ich dachte, Unicode wurde entwickelt, um das Problem der vielen unterschiedlichen Codierungen zu umgehen, da bei den meisten früheren Versuchen (ASCII usw.) nur ein kleiner Adressraum (8 Bit) zur Verfügung stand. Warum gibt es dann so viele Unicode-Codierungen? Sogar mehrere Versionen des (im...

35
Unicode-Lizenz

In den Unicode- Nutzungsbedingungen ist festgelegt, dass jede Software, die ihre Datendateien verwendet (oder eine Änderung davon), die Unicode-Lizenzreferenzen tragen muss. Mir scheint, dass die meisten Unicode-Bibliotheken über Funktionen verfügen, mit denen überprüft werden kann, ob ein Zeichen...

19
Warum gibt es in Unicode so viele Leerzeichen und Zeilenumbrüche?

Unicode hat vielleicht 50 Leerzeichen \ u0009 \ u000A \ u000D \ u0020 \ u0085 \ u00A0 \ u1680 \ u180E \ u2000 \ u200A \ u2028 \ u2029 \ u202F \ u205F \ u3000] 180E 2000- 200A 2028 2029 F 205F 3000 und 6 Zeilenumbrüche nicht nur CRLF, LF, CR, sondern auch NEL (U + 0085), PS (U + 2029) und LS (U +...

14
Ein Unicode-Sentinel-Wert, den ich verwenden kann?

Ich entwerfe ein Dateiformat und möchte es richtig machen. Da es sich um ein Binärformat handelt, sollte das erste Byte (oder die ersten Bytes) der Datei keine gültigen Textzeichen bilden (genau wie im PNG-Dateikopf 1 ). Auf diese Weise können Tools, die das Format nicht erkennen, anhand der ersten...

12
Effiziente Trie-Implementierung für Unicode-Strings

Ich habe nach einer effizienten String-Trie-Implementierung gesucht. Meistens habe ich folgenden Code gefunden: Referenzielle Implementierung in Java (per Wikipedia) Ich mag diese Implementierungen aus zwei Gründen nicht: Sie unterstützen nur 256 ASCII-Zeichen. Ich muss Dinge wie Kyrillisch...