Unicode'un hangi sınıflaması var?


0

Unicode ne tür bir kod dili olarak kabul edilir?

Bu bir programlama dili değil ve HTML'ye çok daha yakın görünüyor, bu nedenle işaretleme olabilir, sanırım, ama yine de ... HTML ve Unicode arasında işlev açısından bazı önemli farklılıklar var, bu yüzden emin değilim.

Yanıtlar:


1

Unicode hiç bir dil değil. Bir karakter kodlaması veya başka bir deyişle, yazılı karakterleri temsil etmek için bir ikili bit kümesini yorumlamanın bir yoludur.


Ancak HTML bunu yapar ve HTML bir dil olarak kabul edilir. : /

@SarahofGaia, HTML ne yapar? HTML, bir web tarayıcısı tarafından bir belgeyi görüntülemek için yorumlanan bir dizi karakterden (Unicode veya ASCII gibi başka bir kodlama) oluşan bir işaretleme dilidir.
heavyd

HTML, Unicode'un yaptığı gibi, farklı bir grafik veya sembolü temsil eden özel karakter dizgilerine sahiptir. Unicode'den farklı olarak, HTML'nin biçimlendirme özellikleri de sağladığını bilmeme rağmen, hala bu örtüşme var. Ben de öyle başlamıştım.

1
@SarahofGaia, en büyük farkın Unicode'un bir karakter dizisini yorumlama ya da ayrıştırma olmadığını, bunun bir dizi parçayı yorumladığını söyleyebilirim. Daha çok bitlerin karakterlerle eşleştirilmesi, bir dilin değil.
heavyd

Ah anlıyorum. Yani HTML kullanarak karakter üretir iken &ABCD;Unicode, aynı karakteri ancak U + WXYZ aracılığıyla üretir. Söylediğin şey bu mu?

1

Unicode hiç bir dil değil, tıpkı Alfabenin kendi içinde İngilizce olmadığı gibi. Belirli kombinasyonlardaki harflerin (kelimelerin) anlam ifade eden kombinasyonu. Benzersiz sembollere benzersiz kodlar atamak standarttır.

A = U + 0041
a = U + 0061
! = U + 0021
Ω = U + 03A9

wiki

DÜZENLE SarahofGaia için: @heavyd'ın dediği gibi, HTML bir biçimlendirme dilidir, öğelerin bir web sitesinde nasıl görüntülendiğini yönetir. Bir programlama dili, bilgisayarın gerçekleştirmesi gereken eylemleri belirler. Unicode kendiliğinden hiçbir şey "yapmaz".

Bir benzetme Unicode'u bir tuğla olarak hayal ediyor olabilir. Kendi başına, sadece bir tuğla. Kırmızı tuğlalara, sarı tuğlalara, büyük tuğlalara, küçük tuğlalara vb. Sahip olabilirsiniz, ancak hiçbir şey yapmaz. Şimdi bir tuğla ev düşünün, çok sayıda tuğla var: temel tuğlaları, duvar tuğlaları, baca tuğlaları, vb. Hepsi birlikte bir şeyler yapmak için çalışıyor - bir ev. Ev, hepsi Unicode'dan yapılmış herhangi bir şey, bir web sitesi, bir program, Kıdemli İngilizce araştırma belgeniz olabilir. Aynı "evi" istediğiniz sayıda "malzemeden" yapabilirsiniz: ahşap (ASCII), çelik (UTF-8), vb. İşte karakter kodlaması hakkında daha genel bilgiler.


Heavyd'in cevabına bakınız.

HTML veya Unicode'un bir biçimlendirme dili olduğunu hiç söylemedim. "Kod dili" dedim. Unicode olduğu belki bir dil veya belirli bir tür olmasa da bir kod.

Unicode'un böyle olduğunu biliyorum. Ancak Unicode ve HTML, belirli ve benzersiz karakter dizeleri kullanarak farklı karakterleri temsil edebilir. Örneğin, em tire ya da U+2014 veya tarafından —. Ayrıca, Unicode'un yapamayacağı bir ekstra biçimlendirme oluşturmak için HTML kullanılabildiğinin de farkındayım. Ama @heavyd dediğim gibi, aralarında örtüşme var.

1

Unicode, bir biçimlendirme dili veya herhangi bir dilin değil, bir kodlama şemasıdır. Kodlama şemaları, örneğin biçimlendirme dillerinin metnini okumak / yazmak için kullanılır.

Bilgisayarlar / CPU'lar kalplerindedir (ve icat edilme nedenleri ve neden çağrılmalarının nedenidir). hesaplamak rs) hiçbir şey ama gerçekten hızlı hesap makineleri. Bu bilgisayarların yalnızca bireysel olarak çalışabileceğini duyduğuna eminim. bit veya 1 ve 0 Bu doğrudur, ancak çoğu CPU işlemi 8 bit (bayt) veya 16 bit (kelime) veya daha fazla (32, 64 vb.) Kümelerle çalışır.

Temelde: CPU sayılarla çalışır ve başka bir şey yapmaz. Dahili olarak, Bir işlemcideki her şey bir sayıdır.

Tabii ki, başlangıçta, insanlar da metin işlemleri yapmak için bilgisayarları kullanmak istediler - en azından sayılardan başka şeyler içeren raporlar yazdırmak için.

Bilgisayarlar ayrıca harici aygıtları da kontrol edebilir - örneğin teletiparatör bu tür erken bir cihazdır.

Bir teletipewriter ile konuşmak için bir program yazabiliriz - fakat kesinlikle sayı göndermekten daha fazlasını yapmak istiyoruz. Mektuplar, noktalama işaretleri ve anlaşılabilir metinler oluşturan diğer semboller göndermek istiyoruz. Cihazın metni tam olarak nasıl oluşturduğu cihaza bağlıdır, ancak gereken her sembol için bir sayı atayan bir şemadır. Bu şekilde CPU istediği sayılarla başa çıkabilir, ancak her sayı bir sembole "karşılık gelir". Unicode budur.

Baudot erken bir programdı (1874'e geri dönüyor!), Ardından EBCIDC ve ASCII geldi. EBCIDC, IBM tarafından yaygın olarak kullanıldı ve hala modern ana bilgisayar sistemlerinde. ASCII çok yaygın bir şekilde kullanılmış ancak yalnızca Latin karakterleriyle sınırlandırılmıştır. Unicode (ASCII'nin bir altküme olduğu) günümüzde yaygın olarak kullanılan bir şemadır ve UTF-8 (aslında ASCII ile aynı olan) gibi alt kümelerini kullanmak mümkündür.

Şimdi, HTML ile ekranınızla okuyorsunuz ve metni anlıyorsunuz. Dahili olarak RAM'de Unicode, HTML belgesinin her sembolünü bellekte ve ayrıca diskte ve ayrıca ağ üzerinden transit olarak temsil etmek için kullanılır. İşletim sisteminiz her bir RAM bayttan geçti ve her bir karakteri, sayı veya kod noktası İndeks olarak ekranda gördüğünüz kısmı görebilirsiniz.

Tarayıcı durumunda, tarayıcınız sayfayı aldığında, sayfanın her bir baytından geçmesi gerekir ve ayrıştırmak tüm unsurlar En düşük seviyeye kadar kaynatıldığında, bu sayı kalıplarını aramayı gerektirir. Örneğin UTF-8’de biraz sadeleştirmek, <div> olurdu (onaltılık olarak) 3C 64 69 76 3Eve tarayıcının ayrıştırıcısı bu sayı sırasını bulduğunda, bunun bir div etiketleyin ve uygun işlemi yapabilirsiniz.

HTML, kodlama şemasının "üstünde" dir ve ASCII veya EBCIDC'yi kullanmak isterseniz, HTML (metin editörü, tarayıcı) kodlaması yöntemini anlayabildiği sürece kullanabilirsiniz.


Ancak, HTML ve Unicode arasında biraz örtüşme var: HTML bazı ekstra biçimlendirme ekleyebilir ve Unicode yapamaz, ikisi de benzersiz, farklı grafikler veya semboller göstermek için belirli karakter dizileri kullanır. Örneğin, em tire ya giriş U+2014 Unicode veya &mdash; HTML’de

Ayrıca, açıklamanızdan çok iyi bir şeyler öğrendim. Bunun için teşekkür ederim. Çok ilginçti.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.