İşte çeşitli yaklaşımların bir özeti ile sorun hakkında bir makale. Buna Farklı Değer Tahmini denir literatürde .
Bunu kendim yapmak zorunda olsaydım, süslü kağıtlar okumak zorunda kalmadan yapardım. Dil modelleri oluştururken, bir grup metin verildiğinde daha önce bilinmeyen bir kelimeyi gözlemleme olasılığını tahmin etmek gerekir. Özellikle dil modelleri için bu problemi çözmede oldukça iyi bir yaklaşım, tam olarak bir kez meydana gelen kelime sayısının toplam jeton sayısına bölünmesidir. Buna İyi Turing Tahmini deniyor .
U1, m öğelerinin bir örneğinde tam olarak bir kez meydana gelen değerlerin sayısı olsun.
P[new item next] ~= u1 / m.
U m örneğinizdeki benzersiz öğelerin sayısı olsun.
Yanlışlıkla 'yeni öğe sonraki' oranının daha fazla veri aldıkça düşmediğini varsayarsanız, İyi Turing'i kullanırsanız,
total uniq set of size s ~= u + u1 / m * (s - m)
U1 gerçekten küçüldükçe bu kötü bir davranışa sahiptir, ancak bu pratikte sizin için bir sorun olmayabilir.