Word2vec, görünmeyen kelimeleri tanımlamak ve bunları önceden eğitilmiş verilerle ilişkilendirmek için nasıl kullanılabilir?


11

Word2vec gensim modeli üzerinde çalışıyordum ve gerçekten ilginç buldum. Modelle kontrol edildiğinde bilinmeyen / görünmeyen bir kelimenin nasıl eğitimli modelden benzer terimleri alabileceğini bulmakla meşgul oldum.

Mümkün mü? Bunun için word2vec değiştirilebilir mi? Ya da eğitim topluluğunun benzerliklerini bulmak istediğim tüm kelimelere sahip olması gerekir.

Yanıtlar:


9

Metin verileriyle ilgilenen her algoritmanın bir kelime haznesi vardır. Word2vec sözlüğünde, kelime bilgisi giriş kümesindeki tüm kelimelerden veya en azından minimum frekans eşiğinin üzerindeki sözcüklerden oluşur.

Algoritmalar, sözcük dağarcığı dışındaki sözcükleri göz ardı etme eğilimindedir. Bununla birlikte, sorununuzu temelde Kelime Dışı kelimeler olmayacak şekilde yeniden çerçevelendirmenin yolları vardır.

Unutmayın, kelimeler word2vec içinde sadece "jeton". Ngram olabilirler veya mektup olabilirler. Kelime dağarcığınızı tanımlamanın bir yolu, en az X kez oluşan her kelimenin kelime dağarcığınızda olduğunu söylemektir. Sonra kelime dağarcığınıza en yaygın "hece" (harf ngramı) eklenir. Sonra kelime dağarcığınıza tek tek harfler eklersiniz.

Bu şekilde herhangi bir kelimeyi ya

  1. Kelime dağarcığınızda bir kelime
  2. Kelime haznenizdeki bir dizi hece
  3. Kelime dağarcığınızdaki bir dizi harf ve hece

3

word2vec, kelimeleri atom olarak kabul eder. Bilinmeyen kelimeler için anlamlı vektörler elde etmek için,

  • bu atomların ne olduğunu değiştirin, örneğin jamesmf'in cevabındaki gibi n-gram harfine geçin veya
  • kelimelerinizin içinde ne olduğuna açıkça bakan farklı bir model kullanın, örneğin https://github.com/Leonard-Xu/CWE adresindeki CWE modelinin kullanımı kolaydır.


evet, bunu denedim ama morfolojik bölümleme gibi görevlerle iyi çalışmıyor.
gaurus

2

Eğitim topluluğunun benzerliklerini bulmak istediğiniz tüm kelimelere sahip olması gerekir.


0

Sözcük dağarcığında değilse, word2Vec ve FastText başarısız olur. Bir hata atar. İlgili kelimeler için bir puan listesi verir, ancak görünmeyen bir kelime kelime hazinesinde olmayacak değil mi? Peki, görünmeyen kelime problemini nasıl çözüyor?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.