İfadeler,
her x'in onaltılık bir basamak olduğu bir U + xxxxx biçimi kullanılarak belirtilmiş gibi görünür.
Örneğin, U + 1F615 olan resmi Unicode Konsorsiyumu kodu "şaşkın yüzü" için 😕
Sık sık kafam karıştığından, bu sembol için güçlü bir yakınlığım var.
U +, 1F615 I Unicode karakterleri için olası tek kodlamalar 8, 16, 24 ya da 32 bit gerekli düşünülmektedir, çünkü 5 heks basamak 5x4 = 20 bit gerektirir, oysa bir temsilidir, bana kafa karıştırıcı.
Ben bu sembol bash tamamen farklı bir hex dize ile temsil gibi görünüyor keşfettim:
$echo -n 😕 | hexdump
0000000 f0 9f 98 95
0000004
$echo -e "\xf0\x9f\x98\x95"
😕
$PS1=$'\xf0\x9f\x98\x95 >'
😕 >
Ben umuyordum U + 1F615 gibi bir şey dönüştürmek \ x00 \ x01 \ xF6 \ x15 .
Bu 2 kodlama arasındaki ilişkiyi görmüyorum?
Resmi Unicode Konsorsiyumu listesinde bir sembol aradığımda, bu kodu manuel olarak bu sıkıcı bir şekilde dönüştürmek zorunda kalmadan doğrudan kullanabilmek istiyorum. yani
- bazı web sayfalarındaki sembolü bulma
- web tarayıcısının panosuna kopyalamak
- GERÇEK kodunu keşfetmek için bir hexdump ile yankılamak için bash'a yapıştırarak.
Bu 20 bitlik kodu 32 bitlik kodun ne olduğunu belirlemek için kullanabilir miyim?
Bu 2 sayı arasında bir ilişki var mı?
\U1F615
sonra başka bir geçerli onaltılık rakam izler farz edilecektir kaçış dizisinin parçası olmak. Takip ettiği şeyden bağımsız olarak çalışmasını sağlamak için, tam sekiz basamak uzunluğunda olmak için yeterli önde gelen sıfırlara sahip olması gerekir:\U0001F615