Skip-gram neden nadir kelimeler için CBOW'dan daha iyi?

19

Skip-gram'ın nadiren kelimeler için neden word2vec'de CBOW'dan daha iyi olduğunu merak ediyorum. Https://code.google.com/p/word2vec/ adresinde hak talebini okudum .

natural-language word2vec word-embeddings

— Franck Dernoncourt
kaynak

14

CBOW'da, orta kelimeyi tahmin etmeden önce bağlam kelimelerinden vektörlerin ortalaması alınır. Atlama gramında gömme vektörlerinin ortalaması yoktur. Görünüşe göre model, tahminleri yapma sürecinde vektörleri diğer bağlam kelimeleriyle ortalaması alınmadığında nadir kelimeler için daha iyi temsiller öğrenebilir.

— Aaron
kaynak

13

İşte farkım için basitleştirilmiş ve oldukça naif anlayışım:

Bildiğimiz gibi, CBOW kelimeyi bağlamla tahmin etmeyi öğreniyor. Veya bağlama bakarak hedef kelimenin olasılığını en üst düzeye çıkarın. Ve bu nadir kelimeler için bir problemdir. Örneğin, bağlamda yesterday was really [...] dayCBOW modeli size büyük olasılıkla beautifulveya kelimesinin olduğunu söyleyecektir nice. Gibi kelimeler delightfulmodelin daha az dikkatini çekecek, çünkü en olası kelimeyi tahmin etmek için tasarlanmıştır. Nadir kelimeler, daha sık kullanılan kelimelerle birçok örnek üzerinde düzeltilecektir.

Öte yandan, atlama-gram bağlamı tahmin etmek için tasarlanmıştır. Kelimesi göz önüne alındığında, delightfulbunu anlamalı ve bize büyük bir olasılık, bağlam yesterday was really [...] dayveya başka bir ilgili bağlam olduğunu söylemelidir . İle atlama-gram kelime delightfulkelime ile rekabet denemez beautifulancak bunun yerine, delightful+contextçiftleri yeni gözlemler olarak ele alınacaktır. Bu nedenle, atlama-gramının daha fazla veriye ihtiyacı olacaktır, böylece nadir kelimeleri bile anlamayı öğrenecektir.

— Serhiy
kaynak

0

Tam tersini gösteren bir makaleyle karşılaştım: CBOW, nadir kelimeler için atlama gramından daha iyidir https://arxiv.org/abs/1609.08293 . Https://code.google.com/p/word2vec/ adresinde belirtilen hak talebinin kaynakları nelerdir merak ediyorum .

— xsway
kaynak

Mikolov'un bu araç setini kendisi yazdığına inanıyorum. İlginç bir şekilde, makalesinde: paper.nips.cc/paper/… “Eğitim sırasında sık kullanılan kelimelerin alt örneklemesinin önemli bir hızlanma (2x - 10x civarında) ile sonuçlandığını ve daha az sık kullanılan kelimelerin gösterimlerinin doğruluğunu artırdığını gösteriyoruz. " böylece alt örnekleme uzantısıyla birlikte atlama-gram.

— Kevin