N-gram hangi n'de verimsiz hale gelir?


13

Doğal dil işleme yaparken, bir ceset alınabilir ve bir sonraki kelimenin n dizisinde meydana gelme olasılığı değerlendirilebilir. n genellikle 2 veya 3 (bigram ve trigram) olarak seçilir.

Belirli bir kuruluşun bu seviyede bir kez sınıflandırılması için gereken süre göz önüne alındığında, n'inci zincir için verilerin izlenmesinin verimsiz hale geldiği bilinen bir nokta var mı? Veya olasılıkları bir (veri yapısı) sözlüğünden aramak için gereken süre ne kadar?


boyutun laneti hakkında bu konu ile ilgili
Antoine

Yanıtlar:


2

Belirli bir kuruluşun bu seviyede bir kez sınıflandırılması için gereken süre göz önüne alındığında, n'inci zincir için verilerin izlenmesinin verimsiz hale geldiği bilinen bir nokta var mı?

Şaşkınlık , n-gram boyutunda tablolar veya araziler mi arıyorsunuz ?

Örnekler:

http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :

resim açıklamasını buraya girin

http://images.myshared.ru/17/1041315/slide_16.jpg :

resim açıklamasını buraya girin

http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :

resim açıklamasını buraya girin

Şaşkınlık dil modelinize, n-gram boyutuna ve veri setine bağlıdır. Her zamanki gibi, dil modelinin kalitesi ile çalışması ne kadar zaman alır? Günümüzde en iyi dil modelleri sinir ağlarına dayanmaktadır, bu nedenle n-gram boyutu seçimi daha az sorun yaratır (ancak CNN kullanıyorsanız, diğer hiperparametreler arasında filtre boyutlarını seçmeniz gerekir ...).


12

"Karşı üretken" ölçünüz keyfi olabilir - ör. çok hızlı bellek ile daha hızlı (daha makul) işlenebilir.

Bunu söyledikten sonra, üstel büyüme gelir ve kendi gözlemlerimden 3-4 civarında olduğu görülür. (Herhangi bir özel çalışma görmedim).

Trigramların bigramlara göre bir avantajı vardır, ancak küçüktür. Daha önce hiç 4 gram uygulamamıştım ama gelişme çok daha az olacak. Muhtemelen benzer bir büyüklük sırası azalır. Örneğin. trigramlar şeyleri bigram üzerinde% 10 iyileştirirse, 4 gram için makul bir tahmin trigramlara göre% 1 gelişme olabilir.

10,000100002100003100004

Seyreltme etkisini telafi etmek için büyük bir ceset isteyeceksiniz, ancak Zipf Yasası büyük bir cesetin daha da benzersiz sözlere sahip olacağını söylüyor ...

Bu yüzden pek çok bigram ve trigram modeli, uygulama ve demo görüyoruz; ancak tam olarak çalışan 4 gramlık örnekler yok.


2
İyi bir özet. Aşağıdaki kağıt ( "uzun kinik hiciv başıboş") sayfalar 48-53 olduğu hakkında daha detaylı bilgi (kağıt yüksek sıralı n-gram bazı sonuçları içerir sıra) research.microsoft.com/~joshuago/longcombine.pdf
Yevgeny

2
Bağlantı öldü. İşte tam referans ve arXiv sürümüne bağlantı: Joshua T. Goodman (2001). Dil Modellemede Biraz İlerleme: Genişletilmiş Versiyon. Microsoft Araştırma: Redmond, WA (ABD). Teknik rapor MSR-TR-2001-72.
scozy
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.