Was sind die am häufigsten verwendeten Nicht-BMP-Unicode-Zeichen? [geschlossen]

108

Welche Unicode-Zeichen, Codepunkte und Bereiche außerhalb des BMP (Basic Multilingual Plane) sind Ihrer Erfahrung nach bisher am häufigsten? Dies sind diejenigen, die 4 Bytes in UTF-8 oder Ersatzbytes in UTF-16 benötigen.

Ich hätte erwartet, dass die Antwort chinesische und japanische Zeichen sind, die in Namen verwendet werden, aber nicht in den am weitesten verbreiteten CJK-Multibyte-Zeichensätzen enthalten sind, aber bei dem Projekt, an dem ich am meisten arbeite, dem englischen Wiktionary, haben wir festgestellt, dass das gotische Alphabet ist bisher weitaus häufiger.

AKTUALISIEREN

Ich habe ein paar Software-Tools geschrieben, um ganze Wikipedias nach Nicht-BMP-Zeichen zu durchsuchen, und zu meiner Überraschung festgestellt, dass selbst in der japanischen Wikipedia das gotische Alphabet am häufigsten vorkommt. Dies gilt auch für die chinesische Wikipedia, aber es wurden auch viele chinesische Schriftzeichen bis zu 50 oder 70 Mal verwendet, einschließlich "𨭎", "𠬠" und "𩷶".

Hippietrail
quelle
1
@hippietrail: Das Hauptproblem ist, dass die Antwort von der Art der Texte abhängt, mit denen Sie arbeiten. Wenn Sie an einem archäologischen Projekt arbeiten und Texte in Linear B katalogisieren , sehen Sie andere Nicht-BMP-Zeichen als beispielsweise bei der Arbeit an einem modernen japanischen Wörterbuch. Ohne zumindest die Art der Texte einzugrenzen, ist dies definitiv zu weit gefasst.
Sleske

Antworten:

95

Emoji sind heute bei weitem die häufigsten Nicht-BMP-Zeichen. 😂, auch bekannt als U + 1F602 GESICHT MIT TRÄNEN DER FREUDE, ist das häufigste im öffentlichen Stream von Twitter. Es kommt häufiger vor als die Tilde!

rspeer
quelle
5
Es ist in der Tat das häufigste Nicht-BMP-Emoji, das laut emojitracker.com
Frédéric Grosshans
1
Ich habe mir übrigens Statistiken zur Textnutzung im Web aus dem Common Crawl angesehen und festgestellt, dass Emoji derzeit auch die häufigsten Nicht-BMP-Zeichen im Web sind. Sie sind natürlich nicht so häufig wie auf Twitter. 😂 ist immer noch die häufigste.
rspeer
1
@ Quuxplusone Quelle: emojistats.org
Niutech
62

Ausgezeichnete Frage!

Die Antwort sind die mathematischen Buchstaben. Im vergangenen Dezember habe ich den gesamten PubMed Open Access-Korpus gescannt und mir diese Zahlen für Astralfiguren ausgedacht.

Die erste Zahl in den folgenden Abbildungen gibt an, wie viele Kopien jedes angegebenen Codepunkts ich im gesamten Korpus gefunden habe. Um Ihnen jedoch einen Eindruck von den relativen Frequenzen zu geben, sind hier die zehn wichtigsten Trans-ASCII-Codepunkte in diesem Korpus aufgeführt:

 2663710 U+002013 ‹–›  GC=Pd    EN DASH
 1065594 U+0000A0 ‹ ›  GC=Zs    NO-BREAK SPACE
 1009762 U+0000B1 ‹±›  GC=Sm    PLUS-MINUS SIGN
  784139 U+002212 ‹−›  GC=Sm    MINUS SIGN
  602377 U+002003 ‹ ›  GC=Zs    EM SPACE
  528576 U+0003BC ‹μ›  GC=Ll    GREEK SMALL LETTER MU
  519669 U+0003B2 ‹β›  GC=Ll    GREEK SMALL LETTER BETA
  512312 U+0003B1 ‹α›  GC=Ll    GREEK SMALL LETTER ALPHA
  491842 U+00200A ‹ ›  GC=Zs    HAIR SPACE
  462505 U+0000B0 ‹°›  GC=So    DEGREE SIGN

Und hier sind nun die Trans-BMP-Codepunkte in der Reihenfolge der absteigenden Häufigkeit:

     544 U+01D49E ‹𝒞›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL C
     450 U+01D4AF ‹𝒯›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL T
     385 U+01D4AE ‹𝒮›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL S
     292 U+01D49F ‹𝒟›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL D
     285 U+01D4B3 ‹𝒳›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL X
     262 U+01D4A9 ‹𝒩›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL N
     258 U+01D4AB ‹𝒫›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL P
     254 U+01D4A2 ‹𝒢›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL G
     185 U+01D49C ‹𝒜›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL A
     178 U+01D53C ‹𝔼›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL E
     137 U+01D4AA ‹𝒪›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL O
      56 U+01D4A5 ‹𝒥›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL J
      48 U+01D4A6 ‹𝒦›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL K
      44 U+01D4B1 ‹𝒱›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL V
      43 U+01D4B2 ‹𝒲›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL W
      42 U+01D4B4 ‹𝒴›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Y
      41 U+01D4B5 ‹𝒵›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Z
      35 U+01D4B0 ‹𝒰›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL U
      30 U+01D4AC ‹𝒬›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Q
      23 U+01D54A ‹𝕊›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL S
      21 U+01D539 ‹𝔹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL B
      19 U+01D5A7 ‹𝖧›  GC=Lu    MATHEMATICAL SANS-SERIF CAPITAL H
      18 U+01D517 ‹𝔗›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL T
      15 U+01D4C3 ‹𝓃›  GC=Ll    MATHEMATICAL SCRIPT SMALL N
      14 U+01D535 ‹𝔵›  GC=Ll    MATHEMATICAL FRAKTUR SMALL X
      13 U+01D4BF ‹𝒿›  GC=Ll    MATHEMATICAL SCRIPT SMALL J
      11 U+01D540 ‹𝕀›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL I
       9 U+01D465 ‹𝑥›  GC=Ll    MATHEMATICAL ITALIC SMALL X
       9 U+01D4CE ‹𝓎›  GC=Ll    MATHEMATICAL SCRIPT SMALL Y
       9 U+01D538 ‹𝔸›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL A
       8 U+01D4C2 ‹𝓂›  GC=Ll    MATHEMATICAL SCRIPT SMALL M
       8 U+01D54D ‹𝕍›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL V
       7 U+01D4B6 ‹𝒶›  GC=Ll    MATHEMATICAL SCRIPT SMALL A
       7 U+01D4BE ‹𝒾›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹𝓌›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹𝔖›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       7 U+01D4BE ‹𝒾›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹𝓌›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹𝔖›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       4 U+01D4CF ‹𝓏›  GC=Ll    MATHEMATICAL SCRIPT SMALL Z
       4 U+01D53B ‹𝔻›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL D
       4 U+01D54B ‹𝕋›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL T
       3 U+01D4BB ‹𝒻›  GC=Ll    MATHEMATICAL SCRIPT SMALL F
       3 U+01D4CA ‹𝓊›  GC=Ll    MATHEMATICAL SCRIPT SMALL U
       3 U+01D507 ‹𝔇›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL D
       3 U+01D542 ‹𝕂›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL K
       3 U+01D546 ‹𝕆›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL O
       2 U+01D4BD ‹𝒽›  GC=Ll    MATHEMATICAL SCRIPT SMALL H
       2 U+01D4C5 ‹𝓅›  GC=Ll    MATHEMATICAL SCRIPT SMALL P
       2 U+01D505 ‹𝔅›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL B
       2 U+01D50E ‹𝔎›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL K
       2 U+01D541 ‹𝕁›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL J
       2 U+01D543 ‹𝕃›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL L
       2 U+100002 ‹􀀂›  GC=Co    <private use character>
       1 U+01D4B8 ‹𝒸›  GC=Ll    MATHEMATICAL SCRIPT SMALL C
       1 U+01D4C1 ‹𝓁›  GC=Ll    MATHEMATICAL SCRIPT SMALL L
       1 U+01D53D ‹𝔽›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL F
       1 U+01D53E ‹𝔾›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL G
       1 U+01D54C ‹𝕌›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL U
       1 U+01D6A4 ‹𝚤›  GC=Ll    MATHEMATICAL ITALIC SMALL DOTLESS I
       1 U+01D7D9 ‹𝟙›  GC=Nd    MATHEMATICAL DOUBLE-STRUCK DIGIT ONE

Ich wünschte wirklich , ich wüsste, wofür sie U + 100002 verwenden. :((

Wenn diese nicht in Ihrem Browser angezeigt werden, sollten Sie die Symbola-Schriftart von George Douros installieren . Es enthält auch alle lustigen Unicode 6.0.0-Codepunkte.

tchrist
quelle