U + 4E00..U + 9FFF, tüm setin bir parçasıdır,
U + 4E00..U + 9FFF, tüm setin bir parçasıdır,
Yanıtlar:
CJK Unicode SSS ("Çince, Japonca ve Korece" karakterlerini içeren) aracılığıyla tam bir liste bulabilirsin
" Doğu Asya Senaryosu " belgesi şunlardan bahsediyor:
Han İdeograflarını İçeren Bloklar
Han ideografik karakterleri, Tablo 12-2'de gösterildiği gibi, Unicode Standardının beş ana bloğunda bulunur.
Tablo 12-2. Han İfadeleri İçeren Bloklar
Block Range Comment
CJK Unified Ideographs 4E00-9FFF Common
CJK Unified Ideographs Extension A 3400-4DBF Rare
CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic
CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
Not: blok aralıkları zaman içinde gelişebilir: en son CJK Unified Ideographs içindedir .
Ayrıca Wikipedia'ya bakın:
Unicode şu anda 74605 CJK karakterine sahiptir. CJK karakterleri yalnızca Çince tarafından kullanılan karakterleri değil, aynı zamanda Japonca Kanji, Korece Hanja ve Vietnamca Chu Nom'u da içerir . Bazı CJK karakterleri Çince karakterler değildir .
Kod U + 4E00 ile U + 9FCC'yi işaret eder.
Kod U + 3400 ile U + 4DB5 arasıdır . Unicode 3.0 (1999).
Kod U + 20000 ile U + 2A6D6 arasıdır. Unicode 3.1 (2001).
Kod U + 2A700 ile U + 2B734'ü işaret eder . Unicode 5.2 (2009).
Kod U + 2B740 ile U + 2B81D'yi işaret eder . Unicode 6.0 (2010).
Yukarıdakiler yeterince spagetti değilse, bilinen sorunlara bir göz atın . İyi eğlenceler =)
Çince karakterler için tam aralıklar (uzantılar hariç) [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]
.
CJK Radicals Supplement, Kangxi radikallerinin alternatif, genellikle konumsal formlarını içeren bir Unicode bloğudur. Bunlar, sözlük indekslerinde ve radikal vuruşla düzenlenmiş diğer CJK ideografi koleksiyonlarında başlıklar kullanılır.
Kanbun, okuma sırasını belirtmek için klasik Çince metinlerin Japonca kopyalarında kullanılan açıklama karakterlerini içeren bir Unicode bloğudur.
CJK Unified Ideographs Extension-A, nadir Han ideograflarını içeren bir Unicode bloğudur.
CJK Unified Ideographs, modern Çince ve Japonca'da kullanılan en yaygın CJK ideograflarını içeren bir Unicode bloğudur.
CJK Uyumluluğu İdeografları, Unicode ile bu kodlamalar arasındaki gidiş dönüş uyumluluğunu korumak için CJK Birleşik İdeograflar atamalarına ek olarak diğer yerleşik karakter kodlamalarında birden çok konumda kodlanmış Han karakterlerini içermek üzere oluşturulmuş bir Unicode bloğudur.
Ayrıntılar için lütfen buraya bakın ve uzantılar diğer yanıtlarda verilmiştir.
Unicode sürüm 11.0.0
Unicode'da Çince, Japonca ve Korece (CJK) komut dosyaları, topluca CJK karakterleri olarak bilinen ortak bir arka planı paylaşır.
Bu aralıklar genellikle atanmamış veya ayrılmış kod noktalarını içerir ( U + 2E9A , U + 2EF4 - 2EFF gibi),
bottom top reference(also have a look at wiki page) block name
4E00 9FEF http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400 4DBF http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000 2A6DF http://www.unicode.org/charts/PDF/U20000.pdf CJK Unified Ideographs Extension B
2A700 2B73F http://www.unicode.org/charts/PDF/U2A700.pdf CJK Unified Ideographs Extension C
2B740 2B81F http://www.unicode.org/charts/PDF/U2B740.pdf CJK Unified Ideographs Extension D
2B820 2CEAF http://www.unicode.org/charts/PDF/U2B820.pdf CJK Unified Ideographs Extension E
2CEB0 2EBEF https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK Unified Ideographs Extension F
3007 3007 https://zh.wiktionary.org/wiki/%E3%80%87 in block CJK Symbols and Punctuation
Bu nedenle aralık
[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]
Bunlar yalnızca uyumluluk için kullanılan Common Han'dır.
Bunların herhangi bir Çince kitapta, makalede, yazılarda vs. yer aldığını görmek neredeyse imkansızdır.
buradaki tüm karakterlerin karşılık gelen bir glif ile özdeş Çince karakterleri vardır. 金 (U + F90A) ve 金 (U + 91D1) gibi, Glif'de aynıdırlar.
F900 FAFF https://www.unicode.org/charts/PDF/UF900.pdf CJK Compatibility Ideographs
2F800 2FA1F https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement
2E80 2EFF http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement
2F00 2FDF http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals
2FF0 2FFF https://unicode.org/charts/PDF/U2FF0.pdf Ideographic Description Character
3000 303F https://www.unicode.org/charts/PDF/U3000.pdf CJK Symbols and Punctuation
3100 312f https://unicode.org/charts/PDF/U3100.pdf Bopomofo
31A0 31BF https://unicode.org/charts/PDF/U31A0.pdf Bopomofo Extended
31C0 31EF http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200 32FF https://unicode.org/charts/PDF/U3200.pdf Enclosed CJK Letters and Months
3300 33FF https://unicode.org/charts/PDF/U3300.pdf CJK Compatibility
FE30 FE4F https://www.unicode.org/charts/PDF/UFE30.pdf CJK Compatibility Forms
FF00 FFEF https://www.unicode.org/charts/PDF/UFF00.pdf Halfwidth and Fullwidth Forms
1F200 1F2FF https://www.unicode.org/charts/PDF/U1F200.pdf Enclosed Ideographic Supplement
Bu geniş bir aralıktır, bazı noktalama işaretleri belki hiç kullanılmamış olabilir, ……”“
Çince'de çok kullanılanlar gibi bazı noktalama işaretleri .
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
……
Yijing Hexagram Symbols veya Kanbun gibi Çin ile ilgili birçok sembol de vardır , ancak yine de konu dışıdır . Çince karakterlerin ne olduğunu daha iyi açıklamak için CJK dilinde Çince olmayan karakterler yazıyorum. Ve yukarıdaki aralıklar, matematik ve diğer özel gösterimler dışında Çin yazısında görünen hemen hemen tüm karakterleri kapsamaktadır.
CJK Sembolleri ve Noktalama İşaretleri
、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿
Yarım Genişlik ve Tam Genişlik Formları
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○
Diğerlerinin yanıtlarının verdiği Unicode kod blokları, Çin Unicode karakterlerinin çoğunu kapsamaktadır, ancak bu diğer kod bloklarından bazılarına da göz atın.
CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS
Daha ayrıntılı tartışmamı burada görün . Ve bu site Unicode'a göz atmak için uygundur.
Özetlemek gerekirse, bunlar onlar gibi geliyor:
var blocks = [
[0x3400, 0x4DB5],
[0x4E00, 0x62FF],
[0x6300, 0x77FF],
[0x7800, 0x8CFF],
[0x8D00, 0x9FCC],
[0x2e80, 0x2fd5],
[0x3190, 0x319f],
[0x3400, 0x4DBF],
[0x4E00, 0x9FCC],
[0xF900, 0xFAAD],
[0x20000, 0x215FF],
[0x21600, 0x230FF],
[0x23100, 0x245FF],
[0x24600, 0x260FF],
[0x26100, 0x275FF],
[0x27600, 0x290FF],
[0x29100, 0x2A6DF],
[0x2A700, 0x2B734],
[0x2B740, 0x2B81D]
]