Was ist der komplette Bereich für chinesische Schriftzeichen in Unicode?

94

U + 4E00..U + 9FFF ist Teil des kompletten Satzes, aber nicht alle

Oh mein Gott
quelle
3
Ich würde hier nur einen Wikipedia-Artikel verlinken, da der Blockbereich von Zeit zu Zeit aktualisiert wird. Daher ist es besser, etwas zu verknüpfen, das sich dynamisch ändert und eine statische Antwort gibt ... en.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067

Antworten:

104

Möglicherweise finden Sie eine vollständige Liste in den CJK-Unicode-FAQ (einschließlich "chinesischer, japanischer und koreanischer" Zeichen).

Das Dokument " East Asian Script " erwähnt:

Blöcke mit Han-Ideogrammen

Han-ideografische Zeichen befinden sich in fünf Hauptblöcken des Unicode-Standards (siehe Tabelle 12-2)

Tabelle 12-2. Blöcke mit Han-Ideogrammen

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

Hinweis: Die Blockbereiche können sich im Laufe der Zeit ändern: Die neueste Version ist in CJK Unified Ideographs enthalten .

Siehe auch Wikipedia:

VonC
quelle
Möglicherweise möchten Sie auch U + AC00 - U + D7AF (Hangul-Silben) einschließen.
Flimm
12
@Flimm: Hangul ist nicht Teil des chinesischen Standards; Hangul ist Koreaner. Koreanische Sprache tut Anwendungen Hanja ( „chinesische Schrift“), aber kaum und nur für einige traditionellen Dinge (wie im letzten Namen, Denkmäler, Plätze ...) , die in Hangul transkribiert nicht möglich ist . Das OP fragte speziell nach Chinesisch, so dass der Responder Hangul nicht einbeziehen musste. :-)
Omninonsense
1
Die Liste scheint keine Interpunktion ("。") abzudecken.
Michał Woliński
1
@ MichałWoliński CJK Symbole und Satzzeichen Bereich ist 3000-303F
Mariano
Ich habe erfahren, dass die CJK Unified Ideographs-Erweiterung A von 3400 bis 4 dBf und nicht von 3400 bis 4 dBff reicht.
Lerner Zhang
48

Unicode hat derzeit 74605 CJK-Zeichen. CJK-Zeichen umfassen nicht nur Zeichen, die von Chinesen verwendet werden, sondern auch japanische Kanji, koreanische Hanja und vietnamesische Chu Nom . Einige CJK-Zeichen sind keine chinesischen Zeichen.

1) 20941 Zeichen aus dem Block CJK Unified Ideographs .

Codepunkte U + 4E00 bis U + 9FCC.

  1. U + 4E00 - U + 62FF
  2. U + 6300 - U + 77FF
  3. U + 7800 - U + 8CFF
  4. U + 8D00 - U + 9FCC

2) 6582 Zeichen aus dem CJKUI Ext A-Block .

Codepunkte U + 3400 bis U + 4DB5 . Unicode 3.0 (1999).

3) 42711 Zeichen aus dem CJKUI Ext B-Block .

Codepunkte U + 20000 bis U + 2A6D6. Unicode 3.1 (2001).

  1. U + 20000 - U + 215FF
  2. U + 21600 - U + 230FF
  3. U + 23100 - U + 245FF
  4. U + 24600 - U + 260FF
  5. U + 26100 - U + 275FF
  6. U + 27600 - U + 290FF
  7. U + 29100 - U + 2A6DF

3) 4149 Zeichen aus dem CJKUI Ext C-Block .

Codepunkte U + 2A700 bis U + 2B734 . Unicode 5.2 (2009).

4) 222 Zeichen aus dem CJKUI Ext D-Block .

Codepunkte U + 2B740 bis U + 2B81D . Unicode 6.0 (2010).

5) CJKUI Ext E-Block.

Kommt bald

Wenn das oben Genannte nicht genug Spaghetti ist, schauen Sie sich bekannte Probleme an . Viel Spaß =)

Pacerier
quelle
1
Hallo, können Sie ein Beispiel für ein CJK-Ideogramm (vorzugsweise aus der Basisebene) geben, das kein chinesisches Schriftzeichen ist? Ich dachte, dass Zeichen aus anderen Sprachen (Japanisch, Koreanisch), die nicht auch chinesische Zeichen sind, in einem anderen Block erscheinen (zum Beispiel im Hangul Jamo-Block im Fall von Koreanisch) ...
Adam Burley
Schauen Sie sich 'Gukja', 'Kokuji' und 'Chữ Nôm' an. U + 4E44, 乄, ist ein CJK-Zeichen nur für Japaner.
22gǻňạcểơửṩ
20

Die genauen Bereiche für chinesische Schriftzeichen (mit Ausnahme der Erweiterungen) sind [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].

  1. [\u2e80-\u2fd5]

CJK Radicals Supplement ist ein Unicode-Block, der alternative, häufig positionelle Formen der Kangxi-Radikale enthält. Sie werden als Überschriften in Wörterbuchindizes und anderen CJK-Ideografiesammlungen verwendet, die nach radikalen Strichen organisiert sind.

  1. [\u3190-\u319f]

Kanbun ist ein Unicode-Block, der Anmerkungszeichen enthält, die in japanischen Kopien klassischer chinesischer Texte verwendet werden, um die Lesereihenfolge anzuzeigen.

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-A ist ein Unicode-Block, der seltene Han-Ideogramme enthält.

  1. [\u4E00-\u9FCC]

CJK Unified Ideographs ist ein Unicode-Block, der die häufigsten CJK-Ideogramme enthält, die im modernen Chinesisch und Japanisch verwendet werden.

  1. [\uF900-\uFAAD]

CJK Compatibility Ideographs ist ein Unicode-Block, der erstellt wurde, um Han-Zeichen zu enthalten, die an mehreren Stellen in anderen festgelegten Zeichencodierungen zusätzlich zu ihren CJK Unified Ideographs-Zuweisungen codiert wurden, um die Round-Trip-Kompatibilität zwischen Unicode und diesen Codierungen beizubehalten.

Einzelheiten finden Sie hier . Die Erweiterungen finden Sie in anderen Antworten.

Lerner Zhang
quelle
Könnte derjenige, der diese Antwort abgelehnt hat, mir bitte den Grund nennen?
Lerner Zhang
2
Ich habe nicht abgelehnt, aber was ist mit den Erweiterungen B, C, D und E?
Suragch
@Suragch Diese Erweiterungen wurden in anderen Antworten korrekt angegeben, daher muss ich sie nicht neu schreiben. Ich habe nur die Bereiche dazwischen klar getrennt.
Lerner Zhang
1. Bereich der CJK-Radikale Ergänzung ist 2E80—2EFF 2.Kangxi Radikale sind keine chinesischen Schriftzeichen, es ist eine grafische Komponente eines chinesischen Zeichens, es wird speziell verwendet, um Radikale auszudrücken, .eg. (U + 2F3B) und 彳 (U + 5F73 ), ⻜ (U + 2EDC) und 飞 (U + 98DE) 3. Wenn Sie glauben, Kanbun seien chinesische Zeichen, warum nicht CJK Compatibility Ideographs? Warum nicht beigefügte CJK-Briefe und Monate?
Voyager
@rambler Danke für deinen Rat. Ich denke, wenn wir Chinses Charakter verarbeiten, sollten wir Kangxi Radicals und Kanbun berücksichtigen. CJK-Kompatibilitätsideogramme sind gut, aber beigefügte CJK-Briefe und Monate sind zu selten, und ich denke nicht, dass wir sie berücksichtigen sollten.
Lerner Zhang
9

Unicode Version 11.0.0

In Unicode haben die chinesischen, japanischen und koreanischen (CJK) Skripte einen gemeinsamen Hintergrund, der zusammen als CJK-Zeichen bezeichnet wird.

Diese Bereiche enthalten häufig nicht zugewiesene oder reservierte Codepunkte (wie U + 2E9A , U + 2EF4 - 2EFF).

chinesische Charaktere

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • Im CJK Unified Ideographs- Block stelle ich fest, dass viele Antworten die obere Grenze von 9FCC verwenden, aber U + 9FCD (鿍) ist in der Tat ein chinesisches Zeichen. Alle Zeichen in diesem Block sind chinesische Zeichen (auch in Japanisch oder Koreanisch usw. verwendet).
  • Die meisten Zeichen in CJK Unified Ideograohs Ext (außer Ext F, nur 17% in Ext F sind chinesische Zeichen) sind traditionelle chinesische Zeichen, die in China selten verwendet werden.
  • 〇 ist die chinesische Zeichenform von Null und wird heute noch verwendet

Daher ist der Bereich

[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]

CJK-Zeichen, aber nie auf Chinesisch verwendet

Sie sind Common Han, die nur aus Kompatibilitätsgründen verwendet werden.

Es ist fast unmöglich, sie in chinesischen Büchern, Artikeln, Schriften usw. zu sehen.

Alle Zeichen hier haben ein entsprechendes glyphenidentisches chinesisches Zeichen. Wie 金 (U + F90A) und 金 (U + 91D1) sind sie in Glyphe identisch.

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

CJK- bezogene Symbole

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • Einige Blöcke wie Hangul Compatibility Jamo werden aufgegeben, da keine Beziehung zu Chinesisch besteht.
  • Kangxi-Radikale sind keine chinesischen Schriftzeichen, sondern eine grafische Komponente eines chinesischen Zeichens. Sie werden speziell zum Ausdrücken von Radikalen verwendet .eg ⼻ (U + 2F3B) und 彳 (U + 5F73), ⻜ (U + 2EDC) und 飞 (U +) 98DE)

Andere gebräuchliche Interpunktion erscheint auf Chinesisch

Dies ist ein breiter Bereich, einige Satzzeichen werden möglicherweise nie verwendet, einige Satzzeichen, wie ……”“sie auf Chinesisch so häufig verwendet werden.

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

Es gibt auch viele chinesische Symbole, wie Yijing Hexagram Symbole oder Kanbun , aber es ist trotzdem nicht zum Thema. Ich schreibe nicht-chinesische Zeichen in CJK, um besser zu erklären, was chinesische Zeichen sind. Die oben genannten Bereiche decken bereits fast alle Zeichen ab, die in der chinesischen Schrift erscheinen, mit Ausnahme von Mathematik und anderen Spezialnotationen.

Ergänzend

CJK-Symbole und Interpunktion

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

Formulare mit halber und voller Breite

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

Verweisen

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97 (in chinesischer Sprache beachten Sie die rechte Seitenleiste)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 % 84% 8F% E6% 96% 87% E5% AD% 97 (beachten Sie die untere Tabelle)
  3. http://www.unicode.org
Voyager
quelle
2

Die Unicode-Codeblöcke, die die anderen Antworten gaben, decken sicherlich die meisten chinesischen Unicode-Zeichen ab, aber sehen Sie sich auch einige dieser anderen Codeblöcke an.

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

Siehe meine ausführlichere Diskussion hier . Und diese Seite ist praktisch zum Durchsuchen von Unicode.

Suragch
quelle
1

Zusammenfassend klingt es so:

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
Lance Pollard
quelle