Başlangıçta yığın taşması üzerine sordum ve bu siteye yönlendirildi, işte gidiyor:
Bazı denetimsiz içerik seçimi / çıkarma tabanlı belge özetleme yöntemlerini uyguluyorum ve ders kitabımın "günlük olabilirlik oranı" olarak adlandırdığı şeyle ilgili kafam karıştı. Jurafsky & Martin'in Konuşma ve Dil İşleme kitabı kısaca şöyle anlatıyor:
Genellikle lambda (w) olarak adlandırılan bir kelime için LLR, her iki şirkette de eşit olasılıklar varsayarak hem girdi hem de arka plan corpus'ta w gözlemleme olasılığı ile her ikisi için farklı olasılıklar varsa w giriş ve arka plan corpus.
Bunu kırdığımızda, payımız var: "Hem girişte hem de arka plan topluluğunda w'yi her iki şirkette eşit olasılıklar varsayarak gözlemleme olasılığı" - Burada hangi olasılığı kullanacağımı nasıl hesaplayabilirim?
ve payda: "hem girişte hem de arka plan topluluğunda w için farklı olasılıklar varsayarak w'yi gözlemleme olasılığı". - Bu, girdi zamanlarında meydana gelen kelimenin olasılığı, corpus'ta meydana gelen kelimenin olasılığı kadar basit midir? örn:
(sayım (kelime, girdi) / girdi içindeki toplam sözcükler) * (sayı (kelime, birim) / toplamdaki kelimeler
Kitabımın referansları, Sürpriz ve Tesadüf İstatistikleri için Doğru Yöntemler (Dunning 1993) üzerine bir makaleye bakıyordum , ancak ekstraksiyon tabanlı özetlemede bireysel kelimeler için LLR değerlerinin hesaplanması sorunuyla ilgili bulmakta zorlanıyorum. Buradaki herhangi bir açıklama gerçekten takdir edilecektir.