LSTM kullanarak dil modelleme görevlerinde bilinmeyen kelimeleri işleme


11

Doğal bir dil işleme (NLP) görevi için sözcükler için gömme olarak genellikle word2vec vektörleri kullanılır. Bununla birlikte, word2vec vektörleri tarafından yakalanmayan birçok bilinmeyen kelime olabilir, çünkü bu kelimeler eğitim verilerinde yeterince sık görülmemektedir (birçok uygulama, kelimeye bir kelime eklemeden önce minimum sayıyı kullanır). Bu, özellikle kelimelerin genellikle yanlış yazıldığı Twitter'dan alınan metinlerde geçerli olabilir.

Uzun kısa vadeli (LSTM) bir ağ kullanarak duygu tahmini gibi bir NLP görevini modellerken bu bilinmeyen kelimeler nasıl ele alınmalıdır? İki seçenek görüyorum:

  1. Word2vec sözlüğüne 'bilinmeyen kelime' jetonu ekleme.
  2. Bu bilinmeyen kelimeleri silmek, LSTM kelimenin cümlenin içinde olduğunu bile bilmeyecek şekilde silinir.

Bu kelimeleri ele almanın tercih edilen yolu nedir?


2
Benzer bir soruyu daha önce cevapladım; o zaman soru LSTM'lere özgü olmasa da, yazdığım şeylerin çoğu geçerli olduğu gibi görünüyor: stats.stackexchange.com/questions/163005/…
fnl

Yanıtlar:


12

Seçenek 1 (bilinmeyen bir kelime belirteci eklemek) çoğu insanın bu sorunu nasıl çözdüğüdür.

Seçenek 2 (bilinmeyen kelimeleri silmek) kötü bir fikirdir çünkü cümleyi LSTM'nin nasıl eğitildiği ile tutarlı olmayan bir şekilde dönüştürür.

Son zamanlarda geliştirilen bir diğer seçenek, evrişimli bir sinir ağı veya her kelimenin karakterlerini birer birer işleyen ayrı bir LSTM kullanarak her kelime için anında gömülü bir kelime oluşturmaktır. Bu tekniği kullanarak, modeliniz hiçbir zaman gömme oluşturamayacağı bir kelimeyle karşılaşmaz.


Merhaba Aaron, Bana üçüncü seçeneğinizi kullanan birkaç işaretçi (kağıt veya kod) verebilir misiniz?
Kehanetler




-1

Nadir kelimeleri eşlemek basitçe bu kelimeleri sildiğimiz ve bunları eğitim verilerindeki jetonla değiştirdiğimiz anlamına gelir. Dolayısıyla modelimiz nadir kelimeleri bilmiyor. Bu ham bir pürüzsüzleştirme şeklidir çünkü model, jetonun gerçek verilerde veya daha iyisinde asla gerçekleşmeyeceğini varsayar, ancak bu n-gramları tamamen göz ardı eder.


4
Lütfen bu cevaba önemli ölçüde ekleyin. Örneğin, "bilinmeyen bir kelime belirtecinin eklenmesi en iyi seçenektir" iddiasını destekleyin.
Jim
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.