Word2vec'in CBOW ve skip-gram modellerinde, negatif örnekleme sık kelimeler için daha iyi olurken, hiyerarşik softmax'ın neden nadir kelimeler için daha iyi olduğunu merak ediyorum. Https://code.google.com/p/word2vec/ adresinde hak talebini okudum .
Word2vec'in CBOW ve skip-gram modellerinde, negatif örnekleme sık kelimeler için daha iyi olurken, hiyerarşik softmax'ın neden nadir kelimeler için daha iyi olduğunu merak ediyorum. Https://code.google.com/p/word2vec/ adresinde hak talebini okudum .
Yanıtlar:
Word2vec'te uzman değilim, ancak Rong, X. (2014) 'i okuduktan sonra . word2vec Parametre Öğrenme Açıklandı ve kendi NN deneyimimden, bunun nedenini basitleştireceğim:
İki yöntem teorik olarak ayrıcalıklı görünmüyor, ancak yine de sık ve seyrek kelimeler için daha iyi olma nedenleri bu gibi görünüyor.
Anladığım kadarıyla bunun nedeni , kategori hiyerarşisini oluştururken kullanılan Huffman kodlamasıdır .
Hiyerarşik softmax, büyük bir softmax yerine sigmoid düğümler ağacı kullanır, Huffman kodlaması herhangi bir sigmoid düğümün her iki tarafına ait veri noktalarının dağılımının dengeli olmasını sağlar. Bu nedenle, bir büyük softmax ve negatif örnekleme kullanma ile karşılaştırıldığında sık kategori tercihini ortadan kaldırmaya yardımcı olur.
Hiyerarşik softmax, tüm kelime dağarcığı üzerinde bir ağaç oluşturur ve nadir kelimeleri temsil eden yaprak düğümleri, kaçınılmaz olarak atalarının ağaçtaki vektör temsillerini miras alır ve bu da korpustaki diğer sık kullanılan kelimelerden etkilenebilir. Bu, yeni korpus için artımlı eğitimden fayda sağlayacaktır.
Negatif örnekleme, gürültü kontrast tahminine dayalı olarak geliştirilir ve gözlemlenen verileri yapay olarak üretilen rastgele gürültüden ayırt etmek için bağlamda olmayan kelimeleri rastgele örnekler.