Hiyerarşik softmax neden nadir kelimeler için daha iyidir, negatif örnekleme sık kelimeler için daha iyidir?


Yanıtlar:


10

Word2vec'te uzman değilim, ancak Rong, X. (2014) 'i okuduktan sonra . word2vec Parametre Öğrenme Açıklandı ve kendi NN deneyimimden, bunun nedenini basitleştireceğim:

  • Hiyerarşik softmax, çıkış vektörü ağ katmanlarında ağaç benzeri bir geçişle belirlendiği için eğitim verimliliğinde bir iyileşme sağlar; verilen bir eğitim örneği değil, yalnızca ağ birimlerini değerlendirmeli / güncellemelidir . Bu, esasen büyük bir kelime dağarcığını desteklemek için ağırlıkları genişletir - belirli bir kelime daha az nöronla ilgilidir ve bunun tersi de geçerlidir.O ( N )O(log(N))O(N)
  • Negatif örnekleme, stokastik degrade inişe benzer şekilde egzersiz verilerini örneklemenin bir yoludur, ancak anahtar, negatif eğitim örneklerine bakmanızdır. Sezgisel olarak, bir kelime beklemiş olabileceği örnekleme yerlerine dayalı olarak eğitir, ancak bir tane bulamadı, bu da her yinelemenin her yinelemeyi eğitmekten daha hızlı ve ortak kelimeler için mantıklı.

İki yöntem teorik olarak ayrıcalıklı görünmüyor, ancak yine de sık ve seyrek kelimeler için daha iyi olma nedenleri bu gibi görünüyor.


1

Anladığım kadarıyla bunun nedeni , kategori hiyerarşisini oluştururken kullanılan Huffman kodlamasıdır .

Hiyerarşik softmax, büyük bir softmax yerine sigmoid düğümler ağacı kullanır, Huffman kodlaması herhangi bir sigmoid düğümün her iki tarafına ait veri noktalarının dağılımının dengeli olmasını sağlar. Bu nedenle, bir büyük softmax ve negatif örnekleme kullanma ile karşılaştırıldığında sık kategori tercihini ortadan kaldırmaya yardımcı olur.


0

Hiyerarşik softmax, tüm kelime dağarcığı üzerinde bir ağaç oluşturur ve nadir kelimeleri temsil eden yaprak düğümleri, kaçınılmaz olarak atalarının ağaçtaki vektör temsillerini miras alır ve bu da korpustaki diğer sık ​​kullanılan kelimelerden etkilenebilir. Bu, yeni korpus için artımlı eğitimden fayda sağlayacaktır.

Negatif örnekleme, gürültü kontrast tahminine dayalı olarak geliştirilir ve gözlemlenen verileri yapay olarak üretilen rastgele gürültüden ayırt etmek için bağlamda olmayan kelimeleri rastgele örnekler.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.