Metin verileriyle ilgilenen her algoritmanın bir kelime haznesi vardır. Word2vec sözlüğünde, kelime bilgisi giriş kümesindeki tüm kelimelerden veya en azından minimum frekans eşiğinin üzerindeki sözcüklerden oluşur.
Algoritmalar, sözcük dağarcığı dışındaki sözcükleri göz ardı etme eğilimindedir. Bununla birlikte, sorununuzu temelde Kelime Dışı kelimeler olmayacak şekilde yeniden çerçevelendirmenin yolları vardır.
Unutmayın, kelimeler word2vec içinde sadece "jeton". Ngram olabilirler veya mektup olabilirler. Kelime dağarcığınızı tanımlamanın bir yolu, en az X kez oluşan her kelimenin kelime dağarcığınızda olduğunu söylemektir. Sonra kelime dağarcığınıza en yaygın "hece" (harf ngramı) eklenir. Sonra kelime dağarcığınıza tek tek harfler eklersiniz.
Bu şekilde herhangi bir kelimeyi ya
- Kelime dağarcığınızda bir kelime
- Kelime haznenizdeki bir dizi hece
- Kelime dağarcığınızdaki bir dizi harf ve hece