Doğal bir dil işleme (NLP) görevi için sözcükler için gömme olarak genellikle word2vec vektörleri kullanılır. Bununla birlikte, word2vec vektörleri tarafından yakalanmayan birçok bilinmeyen kelime olabilir, çünkü bu kelimeler eğitim verilerinde yeterince sık görülmemektedir (birçok uygulama, kelimeye bir kelime eklemeden önce minimum sayıyı kullanır). Bu, özellikle kelimelerin genellikle yanlış yazıldığı Twitter'dan alınan metinlerde geçerli olabilir.
Uzun kısa vadeli (LSTM) bir ağ kullanarak duygu tahmini gibi bir NLP görevini modellerken bu bilinmeyen kelimeler nasıl ele alınmalıdır? İki seçenek görüyorum:
- Word2vec sözlüğüne 'bilinmeyen kelime' jetonu ekleme.
- Bu bilinmeyen kelimeleri silmek, LSTM kelimenin cümlenin içinde olduğunu bile bilmeyecek şekilde silinir.
Bu kelimeleri ele almanın tercih edilen yolu nedir?