Skip-gram'ın nadiren kelimeler için neden word2vec'de CBOW'dan daha iyi olduğunu merak ediyorum. Https://code.google.com/p/word2vec/ adresinde hak talebini okudum .
Skip-gram'ın nadiren kelimeler için neden word2vec'de CBOW'dan daha iyi olduğunu merak ediyorum. Https://code.google.com/p/word2vec/ adresinde hak talebini okudum .
Yanıtlar:
CBOW'da, orta kelimeyi tahmin etmeden önce bağlam kelimelerinden vektörlerin ortalaması alınır. Atlama gramında gömme vektörlerinin ortalaması yoktur. Görünüşe göre model, tahminleri yapma sürecinde vektörleri diğer bağlam kelimeleriyle ortalaması alınmadığında nadir kelimeler için daha iyi temsiller öğrenebilir.
İşte farkım için basitleştirilmiş ve oldukça naif anlayışım:
Bildiğimiz gibi, CBOW kelimeyi bağlamla tahmin etmeyi öğreniyor. Veya bağlama bakarak hedef kelimenin olasılığını en üst düzeye çıkarın. Ve bu nadir kelimeler için bir problemdir. Örneğin, bağlamda yesterday was really [...] day
CBOW modeli size büyük olasılıkla beautiful
veya kelimesinin olduğunu söyleyecektir nice
. Gibi kelimeler delightful
modelin daha az dikkatini çekecek, çünkü en olası kelimeyi tahmin etmek için tasarlanmıştır. Nadir kelimeler, daha sık kullanılan kelimelerle birçok örnek üzerinde düzeltilecektir.
Öte yandan, atlama-gram bağlamı tahmin etmek için tasarlanmıştır. Kelimesi göz önüne alındığında, delightful
bunu anlamalı ve bize büyük bir olasılık, bağlam yesterday was really [...] day
veya başka bir ilgili bağlam olduğunu söylemelidir . İle atlama-gram kelime delightful
kelime ile rekabet denemez beautiful
ancak bunun yerine, delightful+context
çiftleri yeni gözlemler olarak ele alınacaktır. Bu nedenle, atlama-gramının daha fazla veriye ihtiyacı olacaktır, böylece nadir kelimeleri bile anlamayı öğrenecektir.
Tam tersini gösteren bir makaleyle karşılaştım: CBOW, nadir kelimeler için atlama gramından daha iyidir https://arxiv.org/abs/1609.08293 . Https://code.google.com/p/word2vec/ adresinde belirtilen hak talebinin kaynakları nelerdir merak ediyorum .