Belge özetlemesinde günlük olabilirlik oranı

Başlangıçta yığın taşması üzerine sordum ve bu siteye yönlendirildi, işte gidiyor:

Bazı denetimsiz içerik seçimi / çıkarma tabanlı belge özetleme yöntemlerini uyguluyorum ve ders kitabımın "günlük olabilirlik oranı" olarak adlandırdığı şeyle ilgili kafam karıştı. Jurafsky & Martin'in Konuşma ve Dil İşleme kitabı kısaca şöyle anlatıyor:

Genellikle lambda (w) olarak adlandırılan bir kelime için LLR, her iki şirkette de eşit olasılıklar varsayarak hem girdi hem de arka plan corpus'ta w gözlemleme olasılığı ile her ikisi için farklı olasılıklar varsa w giriş ve arka plan corpus.

Bunu kırdığımızda, payımız var: "Hem girişte hem de arka plan topluluğunda w'yi her iki şirkette eşit olasılıklar varsayarak gözlemleme olasılığı" - Burada hangi olasılığı kullanacağımı nasıl hesaplayabilirim?

ve payda: "hem girişte hem de arka plan topluluğunda w için farklı olasılıklar varsayarak w'yi gözlemleme olasılığı". - Bu, girdi zamanlarında meydana gelen kelimenin olasılığı, corpus'ta meydana gelen kelimenin olasılığı kadar basit midir? örn:

(sayım (kelime, girdi) / girdi içindeki toplam sözcükler) * (sayı (kelime, birim) / toplamdaki kelimeler

Kitabımın referansları, Sürpriz ve Tesadüf İstatistikleri için Doğru Yöntemler (Dunning 1993) üzerine bir makaleye bakıyordum , ancak ekstraksiyon tabanlı özetlemede bireysel kelimeler için LLR değerlerinin hesaplanması sorunuyla ilgili bulmakta zorlanıyorum. Buradaki herhangi bir açıklama gerçekten takdir edilecektir.

natural-language text-summarization

— Richard
kaynak

Ders kitabının ne olduğunu söyleyebilir misiniz?

— onestop

Konuşma ve Dil İşleme Jurafsky & Martin

— Richard tarafından

Sınırlı bilgimle, sanırım:

"Girdi içinde w gözlemleme olasılığı" değeri hesaplamak için bir dağılım gerektirir
"Her iki şirkette de eşit olasılıklar varsayarak hem girdi hem de arka plan topluluğunda w gözlemleme olasılığı" w ... olasılığının her iki şirkette eşit olduğu göz önüne alındığında ...

İşte benim formülasyon:

Sorunu biraz formüle etmek:

Hipotez 1: P (girişte w) = P (arka planda w) = p
Hipotez 2: P (girişte w) = p1 ve P (arka planda w) = p2 ve p1 p2 $\ne$

Kritik kısım, burada bir dağıtım üstlenmeniz gerekecek. Basitçe, bir metinde w üretmek için Binom dağılımını varsayıyoruz. Örnek veriler göz önüne alındığında, p, p1 ve p2 değerlerini hesaplamak için maksimum olasılık tahminini kullanabiliriz ve işte bunlar:

p = (girişteki w-sayısı-arka plandaki w-sayısı) / (giriş-boyutu + arka plan-boyutu) = (c1 + c2) / (N1 + N2)
p1 = c1 / N1
p2 = c2 / N2

Hangi hipotezin daha muhtemel olduğunu bilmek istiyoruz. Bu nedenle, her bir hipotezin olasılığını hesaplar ve birbiriyle karşılaştırırız (temel olarak olasılık oranının ne olduğu).

Binom dağılımını varsaydığımızdan , c1 ve c2'ye sahip olma olasılığını hesaplayabiliriz.

Hipotez 1 için:

L (c1) = Girişte w'yi gözlemleme olasılığı = p olasılığını varsayan N1 kelimeleri olduğunda c1'e ulaşma olasılığı (veya başka bir deyişle N1 kez c1 kez için w'yi seçme) b'dir (N1, c1) p) - binom olasılık formülü bakın burada

L (c2) = Arka planda w gözlemleme olasılığı = p olasılığının b (N2, c2, p) olduğunu varsayarak N2 kelimesi olduğunda c2'ye ulaşma olasılığı

Hipotez 2 için bunun yerine p1 ve p2'yi kullanabiliriz.

Şimdi hangi hipotezin daha muhtemel olduğunu bilmek istiyoruz; her hipotezden bir çıktı değerini nasıl karşılaştıracağımızı bilmemiz gerekir.

Ancak her hipotezin L (c1) ve L (c2) olmak üzere 2 değeri vardır. Hangi hipotezin daha olası olduğunu nasıl karşılaştırabiliriz? --- Tek değerli bir çıktı elde etmek için bunları çoğaltmayı seçiyoruz. (çünkü geometriye benzer, sanırım)

— Tanin
kaynak

öğelerinizde, p, p1 ve p2 p, p1 ve p2 tahminleridir, değil mi?

— Xi'an

Evet doğru. İstatistiksel olarak, örnek veriler ve binom dağılımı verilen maksimum olasılık tahminleridir.

— Tanin

Gösterdiğiniz için teşekkürler, btw. Cevabı geliştirdim.

— Tanin