Unicode, bir biçimlendirme dili veya herhangi bir dilin değil, bir kodlama şemasıdır. Kodlama şemaları, örneğin biçimlendirme dillerinin metnini okumak / yazmak için kullanılır.
Bilgisayarlar / CPU'lar kalplerindedir (ve icat edilme nedenleri ve neden çağrılmalarının nedenidir). hesaplamak rs) hiçbir şey ama gerçekten hızlı hesap makineleri. Bu bilgisayarların yalnızca bireysel olarak çalışabileceğini duyduğuna eminim. bit veya 1 ve 0 Bu doğrudur, ancak çoğu CPU işlemi 8 bit (bayt) veya 16 bit (kelime) veya daha fazla (32, 64 vb.) Kümelerle çalışır.
Temelde: CPU sayılarla çalışır ve başka bir şey yapmaz. Dahili olarak, Bir işlemcideki her şey bir sayıdır.
Tabii ki, başlangıçta, insanlar da metin işlemleri yapmak için bilgisayarları kullanmak istediler - en azından sayılardan başka şeyler içeren raporlar yazdırmak için.
Bilgisayarlar ayrıca harici aygıtları da kontrol edebilir - örneğin teletiparatör bu tür erken bir cihazdır.
Bir teletipewriter ile konuşmak için bir program yazabiliriz - fakat kesinlikle sayı göndermekten daha fazlasını yapmak istiyoruz. Mektuplar, noktalama işaretleri ve anlaşılabilir metinler oluşturan diğer semboller göndermek istiyoruz. Cihazın metni tam olarak nasıl oluşturduğu cihaza bağlıdır, ancak gereken her sembol için bir sayı atayan bir şemadır. Bu şekilde CPU istediği sayılarla başa çıkabilir, ancak her sayı bir sembole "karşılık gelir". Unicode budur.
Baudot erken bir programdı (1874'e geri dönüyor!), Ardından EBCIDC ve ASCII geldi. EBCIDC, IBM tarafından yaygın olarak kullanıldı ve hala modern ana bilgisayar sistemlerinde. ASCII çok yaygın bir şekilde kullanılmış ancak yalnızca Latin karakterleriyle sınırlandırılmıştır. Unicode (ASCII'nin bir altküme olduğu) günümüzde yaygın olarak kullanılan bir şemadır ve UTF-8 (aslında ASCII ile aynı olan) gibi alt kümelerini kullanmak mümkündür.
Şimdi, HTML ile ekranınızla okuyorsunuz ve metni anlıyorsunuz. Dahili olarak RAM'de Unicode, HTML belgesinin her sembolünü bellekte ve ayrıca diskte ve ayrıca ağ üzerinden transit olarak temsil etmek için kullanılır. İşletim sisteminiz her bir RAM bayttan geçti ve her bir karakteri, sayı veya kod noktası İndeks olarak ekranda gördüğünüz kısmı görebilirsiniz.
Tarayıcı durumunda, tarayıcınız sayfayı aldığında, sayfanın her bir baytından geçmesi gerekir ve ayrıştırmak tüm unsurlar En düşük seviyeye kadar kaynatıldığında, bu sayı kalıplarını aramayı gerektirir. Örneğin UTF-8’de biraz sadeleştirmek, <div>
olurdu (onaltılık olarak) 3C 64 69 76 3E
ve tarayıcının ayrıştırıcısı bu sayı sırasını bulduğunda, bunun bir div
etiketleyin ve uygun işlemi yapabilirsiniz.
HTML, kodlama şemasının "üstünde" dir ve ASCII veya EBCIDC'yi kullanmak isterseniz, HTML (metin editörü, tarayıcı) kodlaması yöntemini anlayabildiği sürece kullanabilirsiniz.