Gördüğüm kadarıyla, (ikinci dereceden) Kneser-Ney yumuşatma formülü şu ya da bu şekilde
normalize faktörü ile olarak verilmiştir
ve devam olasılığı bir kelime ve
burada bağlamlarda sayısıdır veya simplier görüldü, farklı sözcük sayısını verilen kelime önce . Anladığım kadarıyla, formül özyinelemeli olarak uygulanabilir.
Şimdi bu, bilinmeyen bağlamlarda farklı n-gram uzunlukları için iyi bilinen kelimeleri işler, ancak açıklamaması sözlük dışı kelimeler olduğunda ne yapılması gerektiğidir. Unigramlar için özyineleme adımında P_ {devamı} (/) = P ^ 0_ {KN} (/) = \ frac {1} {V} olduğunu belirten bu örneği izlemeye çalıştım . Belge daha sonra yukarıdaki formülü P ^ 1_ {KN} (w) = P_ {devamı} (w) olarak doğrulamak için bunu kullanır .
Bilinmeyen bir kelime varlığında nasıl çalıştığını göremiyorum . Bu durumlarda çünkü bilinmeyen kelime eğitim seti ile ilgili hiçbir şey devam etmiyor. Benzer şekilde n-gram sayısı .P c C(wn
Ayrıca, bilinmeyen sözcüklerden oluşan bir diziye (örneğin, OOD kelimelerinin bir terimi sıfır olabilir.
Neyi kaçırıyorum?