Unicode standardı, hepsini depolamak için 4 bayta ihtiyacınız olacak kadar yeterli kod noktasına sahiptir. UTF-32 kodlamasının yaptığı budur. Yine de UTF-8 kodlaması, "değişken genişlikli kodlama" adı verilen bir şey kullanarak bunları bir şekilde çok daha küçük alanlara sıkıştırır.
Aslında, US-ASCII'nin ilk 127 karakterini tam olarak gerçek ASCII'ye benzeyen tek bir baytta temsil etmeyi başarır, böylece pek çok ascii metnini, hiçbir şey yapmadan UTF-8miş gibi yorumlayabilirsiniz. Düzgün hile. Peki nasıl çalışıyor?
Burada kendi sorumu sorup cevaplayacağım çünkü anlamak için biraz okudum ve bunun başka birine biraz zaman kazandıracağını düşündüm. Artı belki bir kısmını yanlış anlarsam birisi beni düzeltebilir.