LSTM kullanarak dil modelleme görevlerinde bilinmeyen kelimeleri işleme

Doğal bir dil işleme (NLP) görevi için sözcükler için gömme olarak genellikle word2vec vektörleri kullanılır. Bununla birlikte, word2vec vektörleri tarafından yakalanmayan birçok bilinmeyen kelime olabilir, çünkü bu kelimeler eğitim verilerinde yeterince sık görülmemektedir (birçok uygulama, kelimeye bir kelime eklemeden önce minimum sayıyı kullanır). Bu, özellikle kelimelerin genellikle yanlış yazıldığı Twitter'dan alınan metinlerde geçerli olabilir.

Uzun kısa vadeli (LSTM) bir ağ kullanarak duygu tahmini gibi bir NLP görevini modellerken bu bilinmeyen kelimeler nasıl ele alınmalıdır? İki seçenek görüyorum:

Word2vec sözlüğüne 'bilinmeyen kelime' jetonu ekleme.
Bu bilinmeyen kelimeleri silmek, LSTM kelimenin cümlenin içinde olduğunu bile bilmeyecek şekilde silinir.

Bu kelimeleri ele almanın tercih edilen yolu nedir?

— pir
kaynak

Benzer bir soruyu daha önce cevapladım; o zaman soru LSTM'lere özgü olmasa da, yazdığım şeylerin çoğu geçerli olduğu gibi görünüyor: stats.stackexchange.com/questions/163005/…

— fnl

Yanıtlar:

Seçenek 1 (bilinmeyen bir kelime belirteci eklemek) çoğu insanın bu sorunu nasıl çözdüğüdür.

Seçenek 2 (bilinmeyen kelimeleri silmek) kötü bir fikirdir çünkü cümleyi LSTM'nin nasıl eğitildiği ile tutarlı olmayan bir şekilde dönüştürür.

Son zamanlarda geliştirilen bir diğer seçenek, evrişimli bir sinir ağı veya her kelimenin karakterlerini birer birer işleyen ayrı bir LSTM kullanarak her kelime için anında gömülü bir kelime oluşturmaktır. Bu tekniği kullanarak, modeliniz hiçbir zaman gömme oluşturamayacağı bir kelimeyle karşılaşmaz.

— Aaron
kaynak

Merhaba Aaron, Bana üçüncü seçeneğinizi kullanan birkaç işaretçi (kağıt veya kod) verebilir misiniz?

— Kehanetler

arxiv.org/abs/1508.02096 İşte bir tane

— Aaron

kod: github.com/wlin12/JNN

— chentc

Bir tane daha yeni (EMNLP 2017) arxiv.org/abs/1707.06961 github.com/yuvalpinter/Mimick

— jayelm

-1

Nadir kelimeleri eşlemek basitçe bu kelimeleri sildiğimiz ve bunları eğitim verilerindeki jetonla değiştirdiğimiz anlamına gelir. Dolayısıyla modelimiz nadir kelimeleri bilmiyor. Bu ham bir pürüzsüzleştirme şeklidir çünkü model, jetonun gerçek verilerde veya daha iyisinde asla gerçekleşmeyeceğini varsayar, ancak bu n-gramları tamamen göz ardı eder.

— Konstantin
kaynak

Lütfen bu cevaba önemli ölçüde ekleyin. Örneğin, "bilinmeyen bir kelime belirtecinin eklenmesi en iyi seçenektir" iddiasını destekleyin.

— Jim