Unicode'daki Çince karakterler için tam aralık nedir?


Yanıtlar:


105

CJK Unicode SSS ("Çince, Japonca ve Korece" karakterlerini içeren) aracılığıyla tam bir liste bulabilirsin

" Doğu Asya Senaryosu " belgesi şunlardan bahsediyor:

Han İdeograflarını İçeren Bloklar

Han ideografik karakterleri, Tablo 12-2'de gösterildiği gibi, Unicode Standardının beş ana bloğunda bulunur.

Tablo 12-2. Han İfadeleri İçeren Bloklar

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

Not: blok aralıkları zaman içinde gelişebilir: en son CJK Unified Ideographs içindedir .

Ayrıca Wikipedia'ya bakın:


Ayrıca U + AC00 - U + D7AF (Hangul Heceleri) eklemek isteyebilirsiniz.
Flimm

12
@Flimm: Hangul, Çin standardının bir parçası değildir; Hangul Koreli. Kore Dili yapar ama pek ve sadece Hangul transkripsiyonu edilemez (son isimler, anıtlar, yerler ... gibi) bazı geleneksel şeyler için kullanır Hanja ( "Çince kodlama"). OP özellikle Çince hakkında soru sordu, bu nedenle Yanıtlayıcının Hangul'u dahil etmesine gerek yoktu. :-)
omninonsense

1
Liste noktalama işaretlerini ("。") kapsamıyor.
Michal Woliński

1
@ MichałWoliński CJK Sembolleri ve Noktalama işaretleri aralığı 3000-303F
Mariano

CJK Unified Ideographs Extension A'nın 3400 ila 4dff yerine 3400 ila 4dbf arasında olduğunu öğrendim.
Lerner Zhang

48

Unicode şu anda 74605 CJK karakterine sahiptir. CJK karakterleri yalnızca Çince tarafından kullanılan karakterleri değil, aynı zamanda Japonca Kanji, Korece Hanja ve Vietnamca Chu Nom'u da içerir . Bazı CJK karakterleri Çince karakterler değildir .

1) CJK Unified Ideographs bloğundan 20941 karakter .

Kod U + 4E00 ile U + 9FCC'yi işaret eder.

  1. U + 4E00 - U + 62FF
  2. U + 6300 - U + 77FF
  3. U + 7800 - U + 8CFF
  4. U + 8D00 - U + 9FCC

2) CJKUI Ext A bloğundan 6582 karakter .

Kod U + 3400 ile U + 4DB5 arasıdır . Unicode 3.0 (1999).

3) CJKUI Ext B bloğundan 42711 karakter .

Kod U + 20000 ile U + 2A6D6 arasıdır. Unicode 3.1 (2001).

  1. U + 20000 - U + 215FF
  2. U + 21600 - U + 230FF
  3. U + 23100 - U + 245FF
  4. U + 24600 - U + 260FF
  5. U + 26100 - U + 275FF
  6. U + 27600 - U + 290FF
  7. U + 29100 - U + 2A6DF

3) CJKUI Ext C bloğundan 4149 karakter .

Kod U + 2A700 ile U + 2B734'ü işaret eder . Unicode 5.2 (2009).

4) CJKUI Ext D bloğundan 222 karakter .

Kod U + 2B740 ile U + 2B81D'yi işaret eder . Unicode 6.0 (2010).

5) CJKUI Ext E bloğu.

Çok yakında

Yukarıdakiler yeterince spagetti değilse, bilinen sorunlara bir göz atın . İyi eğlenceler =)


1
Merhaba, Çince karakter olmayan bir CJK ideografisine (tercihen temel düzlemden) bir örnek verebilir misiniz? Diğer dillerden (Japonca, Korece) ve Çince karakterler de olmayan karakterlerin başka bir blokta göründüğünü düşündüm (örneğin Korece Hangul Jamo bloğu) ...
Adam Burley

"Gukja", "Kokuji" ve "Chữ Nôm" a bakmayı deneyin. U + 4E44, 乄, yalnızca Japonca CJK karakteridir.
Ṃųỻịgǻňạcểơửṩ

21

Çince karakterler için tam aralıklar (uzantılar hariç) [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].

  1. [\u2e80-\u2fd5]

CJK Radicals Supplement, Kangxi radikallerinin alternatif, genellikle konumsal formlarını içeren bir Unicode bloğudur. Bunlar, sözlük indekslerinde ve radikal vuruşla düzenlenmiş diğer CJK ideografi koleksiyonlarında başlıklar kullanılır.

  1. [\u3190-\u319f]

Kanbun, okuma sırasını belirtmek için klasik Çince metinlerin Japonca kopyalarında kullanılan açıklama karakterlerini içeren bir Unicode bloğudur.

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-A, nadir Han ideograflarını içeren bir Unicode bloğudur.

  1. [\u4E00-\u9FCC]

CJK Unified Ideographs, modern Çince ve Japonca'da kullanılan en yaygın CJK ideograflarını içeren bir Unicode bloğudur.

  1. [\uF900-\uFAAD]

CJK Uyumluluğu İdeografları, Unicode ile bu kodlamalar arasındaki gidiş dönüş uyumluluğunu korumak için CJK Birleşik İdeograflar atamalarına ek olarak diğer yerleşik karakter kodlamalarında birden çok konumda kodlanmış Han karakterlerini içermek üzere oluşturulmuş bir Unicode bloğudur.

Ayrıntılar için lütfen buraya bakın ve uzantılar diğer yanıtlarda verilmiştir.


Bu yanıtı reddeden kişi bana nedenini söyleyebilir mi?
Lerner Zhang

2
Olumsuz oy vermedim, peki ya uzantı B, C, D ve E?
Suragch

@Suragch Bu uzantılar diğer cevaplarda doğru şekilde sağlandı, bu nedenle yeniden yazmama gerek yok. Sadece aralıkları açıkça ayırdım.
Lerner Zhang

1. CJK Radicals Supplement aralığı 2E80—2EFF'dir 2. Kangxi Radicals Çince karakterler değildir, Çince karakterlerin grafik bileşenidir, özellikle radikalleri ifade etmek için kullanılır, .eg ⼻ (U + 2F3B) ve 彳 (U + 5F73 ), ⻜ (U + 2EDC) ve 飞 (U + 98DE) 3. Kanbun'un çince karakterler olduğunu düşünüyorsanız, CJK Uyumluluk Fikirleri neden olmasın? Neden CJK Mektupları ve Ayları Kapalı Değil?
Voyager

@rambler Tavsiyeniz için teşekkürler. Chinses karakterini işlerken Kangxi Radicals ve Kanbun'u dikkate almamız gerektiğini düşünüyorum. CJK uyumluluk ideografileri iyidir ancak kapalı CJK mektupları ve aylar çok nadirdir ve bunları dikkate almamalıyız.
Lerner Zhang

10

Unicode sürüm 11.0.0

Unicode'da Çince, Japonca ve Korece (CJK) komut dosyaları, topluca CJK karakterleri olarak bilinen ortak bir arka planı paylaşır.

Bu aralıklar genellikle atanmamış veya ayrılmış kod noktalarını içerir ( U + 2E9A , U + 2EF4 - 2EFF gibi),

Çince karakterler

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • Gelen CJK blok, birçok soru üst 9FCC bağlı kullanmak fark ancak U +, 9FCD (鿍) gerçekten bir Çin char. Ve bu bloktaki tüm karakterler Çince karakterlerdir (Japonca veya Korece vb. De kullanılır).
  • CJK Unified Ideograohs Ext'teki karakterlerin çoğu (Ext F dışında, Ext F'de yalnızca% 17'si çince karakterlerdir), Çin'de nadiren kullanılan geleneksel Çince karakterlerdir.
  • 〇 sıfırın çince karakter biçimidir ve bugün hala kullanılmaktadır

Bu nedenle aralık

[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]

CJK karakterleri ama asla Çince kullanılmadı

Bunlar yalnızca uyumluluk için kullanılan Common Han'dır.

Bunların herhangi bir Çince kitapta, makalede, yazılarda vs. yer aldığını görmek neredeyse imkansızdır.

buradaki tüm karakterlerin karşılık gelen bir glif ile özdeş Çince karakterleri vardır. 金 (U + F90A) ve 金 (U + 91D1) gibi, Glif'de aynıdırlar.

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

CJK ile ilgili semboller

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • Hangul Uyumluluğu Jamo gibi bazı bloklar , Çince ile hiçbir ilişkisi olmadığı için terk edildi.
  • Kangxi Radicals Çince karakterler değildir, Çince karakterlerin grafik bileşenidir, özellikle radikalleri ifade etmek için kullanılır, .eg ⼻ (U + 2F3B) ve 彳 (U + 5F73), ⻜ (U + 2EDC) ve 飞 (U + 98DE)

Diğer yaygın noktalama işaretleri Çince olarak görünüyor

Bu geniş bir aralıktır, bazı noktalama işaretleri belki hiç kullanılmamış olabilir, ……”“Çince'de çok kullanılanlar gibi bazı noktalama işaretleri .

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

Yijing Hexagram Symbols veya Kanbun gibi Çin ile ilgili birçok sembol de vardır , ancak yine de konu dışıdır . Çince karakterlerin ne olduğunu daha iyi açıklamak için CJK dilinde Çince olmayan karakterler yazıyorum. Ve yukarıdaki aralıklar, matematik ve diğer özel gösterimler dışında Çin yazısında görünen hemen hemen tüm karakterleri kapsamaktadır.

Tamamlayıcı

CJK Sembolleri ve Noktalama İşaretleri

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

Yarım Genişlik ve Tam Genişlik Formları

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

Öner

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97 (Çince dilinde, sağ taraftaki çubuğa dikkat edin)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 % 84% 8F% E6% 96% 87% E5% AD% 97 (alttaki tabloya dikkat edin)
  3. http://www.unicode.org

2

Diğerlerinin yanıtlarının verdiği Unicode kod blokları, Çin Unicode karakterlerinin çoğunu kapsamaktadır, ancak bu diğer kod bloklarından bazılarına da göz atın.

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

Daha ayrıntılı tartışmamı burada görün . Ve bu site Unicode'a göz atmak için uygundur.


1

Özetlemek gerekirse, bunlar onlar gibi geliyor:

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.