Göre Wikipedia makalesinde , UTF-8 bu biçimdedir:
İlk kod Son kod Bayt Bayt 1 Bayt 2 Bayt 3 Bayt 4 point point Kullanılmış U + 0000 U + 007F 1 0xxxxxxx U + 0080 U + 07FF 2 110xxxxx 10xxxxxx U + 0800 U + FFFF 3 1110xxxx 10xxxxxx 10xxxxxx U + 10000 U + 1FFFFF 4 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx x, bu bitin kod noktasını seçmek için kullanıldığı anlamına gelir.
Bu, her devam baytında iki bit ve ilk baytta bir bit harcar. UTF-8 neden aşağıdaki gibi kodlanmamış?
İlk kod Son kod Bayt Bayt 1 Bayt 2 Bayt 3 point point Kullanılmış U + 0000 U + 007F 1 0xxxxxxx U + 0080 U + 3FFF 2 10xxxxxx xxxxxxxx U + 0800 U + 1FFFFF 3 110xxxxx xxxxxxxx xxxxxxxx
Kod noktası Temel Çok Dilli Düzlemin dışında olduğunda veya kod noktası [U + 800, U + 3FFF] aralığında olduğunda bir bayt tasarruf eder.
UTF-8 neden daha verimli bir şekilde kodlanmıyor?