Kneser-Ney yumuşatmada görünmeyen kelimeler nasıl ele alınır?

15

Gördüğüm kadarıyla, (ikinci dereceden) Kneser-Ney yumuşatma formülü şu ya da bu şekilde

$\begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align}$

normalize faktörü ile $\lambda(w_{n-1})$ olarak verilmiştir

$\begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align}$

ve devam olasılığı $P_{cont}(w_n)$ bir kelime ve $w_n$

$\begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align}$

burada $N_{1+}\left(\bullet w\right)$ bağlamlarda sayısıdır $w$ veya simplier görüldü, farklı sözcük sayısını $\bullet$ verilen kelime önce $w$ . Anladığım kadarıyla, formül özyinelemeli olarak uygulanabilir.

Şimdi bu, bilinmeyen bağlamlarda farklı n-gram uzunlukları için iyi bilinen kelimeleri işler, ancak açıklamaması sözlük dışı kelimeler olduğunda ne yapılması gerektiğidir. Unigramlar için özyineleme adımında olduğunu belirten bu örneği izlemeye çalıştım . Belge daha sonra yukarıdaki formülü olarak doğrulamak için bunu kullanır . $P_{cont}(/) = P^0_{KN}(/) = \frac{1}{V}$ $P^1_{KN}(w) = P_{cont}(w)$

Bilinmeyen bir kelime varlığında nasıl çalıştığını göremiyorum . Bu durumlarda çünkü bilinmeyen kelime eğitim seti ile ilgili hiçbir şey devam etmiyor. Benzer şekilde n-gram sayısı . $w = \text{unknown}$ $P_{cont}(\text{unknown}) = \frac{0}{\text{something}}$ $C\left(w_{n-1}, \text{unknown}\right) = 0$

Ayrıca, bilinmeyen sözcüklerden oluşan bir diziye (örneğin, OOD kelimelerinin bir terimi sıfır olabilir. $\sum_{w'} C\left(w_{n-1}, w'\right)$

Neyi kaçırıyorum?

— sunside
kaynak

Ben de KN ile mücadele ediyorum. Bence görünmeyen bigram P (w1w2) olasılığı, son unigram w2'nin devam etme olasılığına geri dönebilir. Görünmeyen bir unigramla bırakıldığında hiçbir şeyin yoktu. Sonra ne yapacağız? Bilmiyorum.

— momobo

Şu anda kendimi KN uygulamaya çalışıyorum ve aynı sorunla sıkışıp kaldım. İkiniz de bir çözüm bulmayı başardınız mı?

— jbaiter

Görünmeyen unigramlar (frekanslara ve frekansların frekanslarına bir güç fonksiyonu uydurma) için Good-Turing yumuşatmaya geri döndüm ... değişen sonuçlarla.

— sunside

6

Dan Jurafsky, N-Gram modelleri hakkında bu sorundan biraz bahseten bir bölüm yayınladı :

Özyinelemenin sona ermesinde, unigramlar düzgün dağılımla enterpolasyon yapılır:

$\begin{align} P_{KN}(w) = \frac{\max(c_{KN}(w)-d,0)}{\sum_{w'}c_{KN}(w')}+\lambda(\epsilon)\frac{1}{|V|} \end{align}$

Bilinmeyen bir kelime eklemek istiyorsak <UNK>, sadece sıfır sayımla düzenli bir kelime girişi olarak dahil edilir ve bu nedenle olasılığı şöyle olur:

$\begin{align} \frac{\lambda(\epsilon)}{|V|} \end{align}$

Ne demek olduğunu öğrenmek için çalıştı, ama değilim ettik emin eğer sadece anlamına . Bu durumda ve sayım sıfıra giderken, belki gider , varsayalım : $\epsilon$ $\lim_{x\rightarrow0}x$ $\lambda(\epsilon)$ $d$

$\begin{align} \lambda(w_{i-1}) = \frac{d}{c(w_{i-1})}\vert\{w:c(w_{i-1},w)>0\}\vert \end{align}$

o zaman bilinmeyen kelimeye indirimin bir kısmı verilir, yani:

$\begin{align} \frac{\lambda(\epsilon)}{|V|} = \frac{d}{|V|} \end{align}$

Bu cevaptan hiç emin değilim, ama daha fazla düşünceye yol açması durumunda oraya çıkarmak istedim.

Güncelleme: Biraz daha kazmak, genellikle boş dizeyi ("") belirtmek için kullanılıyor gibi görünüyor , ancak bunun hesaplamasını nasıl etkilediği hala net değil . hala benim en iyi tahminim $\epsilon$ $\lambda$ $\frac{d}{|V|}$

— abroekhof
kaynak

2

İyi cevap ama senin gibi% 100 kendinden emin değilim. Python'da perl komut dosyası araştırma.microsoft.com /en-us/um/redmond/groups/srg/papers/… 'ın bir sürümünü uyguladım - ancak sadece kapalı bir kelime dağarcığınız varsa olduğu gibi çalıştığını fark ettim (0 prob sorunu ) - yani tüm test unigramları da trendedir. Jan önerdiği gibi lagunita.stanford.edu/c4x/Engineering/CS-224N/asset/slp4.pdf I ön işleme sırasında <UNK> her kelimenin ilk örneği yerini aldı. Ancak, bölümleme yaparken, "goofedup" gibi trende olmayan bazı test unigramları vardır. Bu yüzden d / | V | buraya. Teşekkürler!

— Josh Morel

1

Bir modeli eğitmenin birçok yolu vardır, <UNK>ancak Jurafsky eğitimde çok az kez ortaya çıkan kelimeleri seçmeyi ve bunları sadece değiştirmeyi önerir <UNK>.

O zaman olasılıkları normalde yaptığınız gibi eğitin.

3:40 ile başlayan bu videoyu izleyin -

https://class.coursera.org/nlp/lecture/19

Başka bir yaklaşım, bir kelimeyi <UNK>eğitimde ilk kez görüldüğü gibi düşünmektir , ancak benim deneyimimden bu yaklaşım, olasılık kitlesinin çok fazlasını atar <UNK>.

— azgın
kaynak

0

Sadece birkaç düşünce, bu konuda uzman olmaktan çok uzakım, bu yüzden soruya cevap vermek değil, onu analiz etmek niyetindeyim.

$\lambda(\epsilon)$ $\lambda(\epsilon)$

λ (ϵ) = 1 - \frac{\sum_{w} m a x (C_{K N} (w) - d, 0)}{\sum_{w^{'}} C_{K N} (w)}

$\lambda(\epsilon)=1-\frac{\sum_w{max(C_{KN}(w) - d, 0)}}{\sum_{w'}{C_{KN}(w)}}$

C_{K N} (w)

$C_{KN}(w)$

Başka bir seçenek, <unk>olasılığı Randy'nin bahsettiği yöntemlerle tahmin etmek ve ona düzenli bir jeton olarak davranmak olacaktır.

Bu adımın formüllerin tutarlı olmasını sağlamak için yapıldığını düşünüyorum. teriminin $\frac{\lambda(\epsilon)}{|V|}$

— Daniel Villegas
kaynak

Cevapların gerçek cevaplar için olduğu varsayılmaktadır.

— Michael R. Chernick