Birkaç nedenden dolayı kelimeler yerine N-gram harf kullanılır:
1) Belirli bir dil için gereken kelimelerin listesi oldukça büyüktür, belki de hızlı, daha hızlı, en hızlı, oruçlu, oruç, oruç, ... tüm farklı kelimeler gibi düşünürseniz. 80 dil için, çok fazla yer kaplayan yaklaşık 50x kelimeye ihtiyacınız var - 50+ megabayt.
2) 26 harfli bir alfabe için harf trigram sayısı 26 ** 3 veya yaklaşık 17,000 ve dörtgenler (N = 4) için bu alfabeyi kullanan TÜM dilleri kapsayan yaklaşık 450.000'dir. 30-100 karakterlik daha büyük harflerle N-gram için benzer ancak biraz daha büyük sayılar. Han alfabesinde 4000+ harf içeren CJK dilleri için unigramlar (N = 1) yeterlidir. Bazı Unicode komut dosyaları için, komut dosyası başına yalnızca bir dil (Yunanca, Ermenice) vardır, bu nedenle harf kombinasyonuna gerek yoktur (nil gram N = 0 olarak adlandırılır)
3) Kelimelerde, sözlükte olmayan bir sözcük verildiğinde hiçbir bilginiz olmazken, N-gram harfleriyle bu sözcük içinde en az birkaç yararlı harf birleşimine sahip olursunuz.
CLD2, Latince, Kiril ve Arapça dahil olmak üzere çoğu Unicode alfabesi (alfabe) için quadgramlar, CJK komut dosyaları için unigramlar, diğer komut dosyaları için nilgramlar ve ayrıca ayırt etmek için sınırlı sayıda oldukça farklı ve oldukça yaygın tam kelime ve kelime çifti içerir Endonezce ve Malayca gibi istatistiksel olarak benzer dillerden oluşan zor gruplar içinde. Harf bigramları ve trigramları belki de az sayıda dili ayırt etmek için yararlıdır (yaklaşık sekiz, bkz. Https://docs.google.com/document/d/1NtErs467Ub4yklEfK0C9AYef06G_1_9NHL5dPuKIH7k/edit), ancak düzinelerce dili ayırt etmek için işe yaramaz. Bu nedenle, CLD2, her harf kombinasyonuyla ilişkili olarak bu kombinasyonu kullanan en büyük üç dili ilişkilendiren dörtgen kullanır. Bu, 80 MB'ı 1,5 MB tablolarla ve 160 dili 5MB tablolarla daha ayrıntılı olarak kapsamayı sağlar.