Welche Unicode-Zeichen, Codepunkte und Bereiche außerhalb des BMP (Basic Multilingual Plane) sind Ihrer Erfahrung nach bisher am häufigsten? Dies sind diejenigen, die 4 Bytes in UTF-8 oder Ersatzbytes in UTF-16 benötigen.
Ich hätte erwartet, dass die Antwort chinesische und japanische Zeichen sind, die in Namen verwendet werden, aber nicht in den am weitesten verbreiteten CJK-Multibyte-Zeichensätzen enthalten sind, aber bei dem Projekt, an dem ich am meisten arbeite, dem englischen Wiktionary, haben wir festgestellt, dass das gotische Alphabet ist bisher weitaus häufiger.
AKTUALISIEREN
Ich habe ein paar Software-Tools geschrieben, um ganze Wikipedias nach Nicht-BMP-Zeichen zu durchsuchen, und zu meiner Überraschung festgestellt, dass selbst in der japanischen Wikipedia das gotische Alphabet am häufigsten vorkommt. Dies gilt auch für die chinesische Wikipedia, aber es wurden auch viele chinesische Schriftzeichen bis zu 50 oder 70 Mal verwendet, einschließlich "𨭎", "𠬠" und "𩷶".
quelle
Antworten:
Emoji sind heute bei weitem die häufigsten Nicht-BMP-Zeichen. 😂, auch bekannt als U + 1F602 GESICHT MIT TRÄNEN DER FREUDE, ist das häufigste im öffentlichen Stream von Twitter. Es kommt häufiger vor als die Tilde!
quelle
Ausgezeichnete Frage!
Die Antwort sind die mathematischen Buchstaben. Im vergangenen Dezember habe ich den gesamten PubMed Open Access-Korpus gescannt und mir diese Zahlen für Astralfiguren ausgedacht.
Die erste Zahl in den folgenden Abbildungen gibt an, wie viele Kopien jedes angegebenen Codepunkts ich im gesamten Korpus gefunden habe. Um Ihnen jedoch einen Eindruck von den relativen Frequenzen zu geben, sind hier die zehn wichtigsten Trans-ASCII-Codepunkte in diesem Korpus aufgeführt:
Und hier sind nun die Trans-BMP-Codepunkte in der Reihenfolge der absteigenden Häufigkeit:
Ich wünschte wirklich , ich wüsste, wofür sie U + 100002 verwenden. :((
Wenn diese nicht in Ihrem Browser angezeigt werden, sollten Sie die Symbola-Schriftart von George Douros installieren . Es enthält auch alle lustigen Unicode 6.0.0-Codepunkte.
quelle
Für mich die mathematischen alphanumerischen Symbole , die für den mathematischen Satz mit OpenType-Schriftarten wie Cambria Math verwendet werden.
quelle