Belge özetlemesinde günlük olabilirlik oranı


9

Başlangıçta yığın taşması üzerine sordum ve bu siteye yönlendirildi, işte gidiyor:

Bazı denetimsiz içerik seçimi / çıkarma tabanlı belge özetleme yöntemlerini uyguluyorum ve ders kitabımın "günlük olabilirlik oranı" olarak adlandırdığı şeyle ilgili kafam karıştı. Jurafsky & Martin'in Konuşma ve Dil İşleme kitabı kısaca şöyle anlatıyor:

Genellikle lambda (w) olarak adlandırılan bir kelime için LLR, her iki şirkette de eşit olasılıklar varsayarak hem girdi hem de arka plan corpus'ta w gözlemleme olasılığı ile her ikisi için farklı olasılıklar varsa w giriş ve arka plan corpus.

Bunu kırdığımızda, payımız var: "Hem girişte hem de arka plan topluluğunda w'yi her iki şirkette eşit olasılıklar varsayarak gözlemleme olasılığı" - Burada hangi olasılığı kullanacağımı nasıl hesaplayabilirim?

ve payda: "hem girişte hem de arka plan topluluğunda w için farklı olasılıklar varsayarak w'yi gözlemleme olasılığı". - Bu, girdi zamanlarında meydana gelen kelimenin olasılığı, corpus'ta meydana gelen kelimenin olasılığı kadar basit midir? örn:

(sayım (kelime, girdi) / girdi içindeki toplam sözcükler) * (sayı (kelime, birim) / toplamdaki kelimeler

Kitabımın referansları, Sürpriz ve Tesadüf İstatistikleri için Doğru Yöntemler (Dunning 1993) üzerine bir makaleye bakıyordum , ancak ekstraksiyon tabanlı özetlemede bireysel kelimeler için LLR değerlerinin hesaplanması sorunuyla ilgili bulmakta zorlanıyorum. Buradaki herhangi bir açıklama gerçekten takdir edilecektir.


1
Ders kitabının ne olduğunu söyleyebilir misiniz?
onestop

Konuşma ve Dil İşleme Jurafsky & Martin
Richard tarafından

Yanıtlar:


1

Sınırlı bilgimle, sanırım:

  1. "Girdi içinde w gözlemleme olasılığı" değeri hesaplamak için bir dağılım gerektirir
  2. "Her iki şirkette de eşit olasılıklar varsayarak hem girdi hem de arka plan topluluğunda w gözlemleme olasılığı" w ... olasılığının her iki şirkette eşit olduğu göz önüne alındığında ...

İşte benim formülasyon:


Sorunu biraz formüle etmek:

  1. Hipotez 1: P (girişte w) = P (arka planda w) = p
  2. Hipotez 2: P (girişte w) = p1 ve P (arka planda w) = p2 ve p1 p2

Kritik kısım, burada bir dağıtım üstlenmeniz gerekecek. Basitçe, bir metinde w üretmek için Binom dağılımını varsayıyoruz. Örnek veriler göz önüne alındığında, p, p1 ve p2 değerlerini hesaplamak için maksimum olasılık tahminini kullanabiliriz ve işte bunlar:

  1. p = (girişteki w-sayısı-arka plandaki w-sayısı) / (giriş-boyutu + arka plan-boyutu) = (c1 + c2) / (N1 + N2)
  2. p1 = c1 / N1
  3. p2 = c2 / N2

Hangi hipotezin daha muhtemel olduğunu bilmek istiyoruz. Bu nedenle, her bir hipotezin olasılığını hesaplar ve birbiriyle karşılaştırırız (temel olarak olasılık oranının ne olduğu).

Binom dağılımını varsaydığımızdan , c1 ve c2'ye sahip olma olasılığını hesaplayabiliriz.

Hipotez 1 için:

L (c1) = Girişte w'yi gözlemleme olasılığı = p olasılığını varsayan N1 kelimeleri olduğunda c1'e ulaşma olasılığı (veya başka bir deyişle N1 kez c1 kez için w'yi seçme) b'dir (N1, c1) p) - binom olasılık formülü bakın burada

L (c2) = Arka planda w gözlemleme olasılığı = p olasılığının b (N2, c2, p) olduğunu varsayarak N2 kelimesi olduğunda c2'ye ulaşma olasılığı

Hipotez 2 için bunun yerine p1 ve p2'yi kullanabiliriz.

Şimdi hangi hipotezin daha muhtemel olduğunu bilmek istiyoruz; her hipotezden bir çıktı değerini nasıl karşılaştıracağımızı bilmemiz gerekir.

Ancak her hipotezin L (c1) ve L (c2) olmak üzere 2 değeri vardır. Hangi hipotezin daha olası olduğunu nasıl karşılaştırabiliriz? --- Tek değerli bir çıktı elde etmek için bunları çoğaltmayı seçiyoruz. (çünkü geometriye benzer, sanırım)


öğelerinizde, p, p1 ve p2 p, p1 ve p2 tahminleridir, değil mi?
Xi'an

Evet doğru. İstatistiksel olarak, örnek veriler ve binom dağılımı verilen maksimum olasılık tahminleridir.
Tanin

Gösterdiğiniz için teşekkürler, btw. Cevabı geliştirdim.
Tanin
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.