Kelimelerin Sürekli Çantası hakkında soru


11

Bu cümleyi anlamakta güçlük çekiyorum:

Önerilen ilk mimari, doğrusal olmayan gizli katmanın kaldırıldığı ve projeksiyon katmanının tüm kelimeler (yalnızca projeksiyon matrisi için değil) paylaşıldığı ileri beslemeli NNLM'ye benzer; böylece, tüm kelimeler aynı pozisyona yansıtılır (vektörlerinin ortalaması alınır).

Projeksiyon katmanı vs projeksiyon matrisi nedir? Tüm kelimelerin aynı konuma yansıtıldığını söylemek ne anlama geliyor? Peki neden vektörlerinin ortalamasını alıyor?

Cümle, vektör uzayında kelime temsillerinin etkili bir şekilde tahmin edilmesinin bölüm 3.1'inin ilkidir (Mikolov ve ark. 2013) .

Yanıtlar:


6

Şekil 1 orada işleri biraz açıklığa kavuşturmaktadır. Belirli bir boyuttaki pencereden tüm kelime vektörleri toplanır, sonuç (1 / pencere boyutu) ile çarpılır ve daha sonra çıktı katmanına beslenir.

Projeksiyon matrisi, her kelimenin tek gerçek değerli vektöre karşılık geldiği tam bir arama tablosu anlamına gelir. Projeksiyon katmanı, etkili bir şekilde bir sözcük (sözcük dizini) alan ve karşılık gelen vektörü döndüren bir işlemdir. Bunları birleştirebilir (k * n boyutunda girdi elde edilir, burada k pencere boyutu ve n vektör uzunluğudur) veya CBOW modelinde olduğu gibi, hepsini toplar (n boyutunda girdi elde edilir).

resim açıklamasını buraya girin


İlk olarak, cevabınız için teşekkürler. Projeksiyon matrisi ve projeksiyon katmanı arasındaki farktan hala biraz kafam karıştı. Aynı görünüyorlar.
user70394

@ user70394 Evet, aslında terminolojiyi biraz kafa karıştırıcı buluyorum. Temel olarak herhangi bir NN katmanı, girdileri çıktılarla eşleyen bir işlevdir. Projeksiyon katmanı bunu projeksiyon matrisinden gelen ağırlıkları kullanarak yapar ancak matrisin kendisi değildir. Aynı matris göz önüne alındığında, birçok farklı fonksiyon tanımlanabilir. Aslında, CBOW durumunda, zaman gecikmeli projeksiyon tabakası ve ardından toplama tabakası olduğunu söyleyebiliriz. RNNLM modelinde "projeksiyon katmanı" aslında çıkışları hesaplamak için projeksiyon matrisinin ağırlıklarını tekrarlayan ağırlıklarla birleştiren tekrarlayan gizli katmanın bir parçasıdır.
Denis Tarasov

1

Ben CBOW konularda etrafında gezen ve bu tökezledi gibi, burada ( "Bir projeksiyon nedir senin (ilk) sorusuna alternatif bir cevaptır tabaka vs matris ?") (, NNLM modeline bakarak Bengio vd., 2003):

Bengio ve ark., 2003, Şekil 1: Sinirsel mimari: f (i, w_ {t − 1}, ···, w_ {t − n + 1}) = g (i, C (w_ {t − 1} ), ···, C (w_ {t − n + 1})), burada g sinir ağı ve C (i) i-kelime sözcük özelliği vektörüdür.

tanhC(wi)Ctanh

Eklemek ve "sadece kayıt için": Gerçek heyecan verici kısım, Mikolov'un Bengio'nun resminde "burada en fazla hesaplama" ifadesini gördüğünüz kısmı çözme yaklaşımıdır. Bengio, sonraki bir makalede (sadece softmax kullanmak yerine) hiyerarşik softmax adı verilen bir şey yaparak bu sorunu azaltmaya çalıştı (Morin ve Bengio 2005). Ancak Mikolov, negatif alt örnekleme stratejisiyle bunu bir adım daha ileri götürdü: Tüm "yanlış" kelimelerin (veya Bengio'nun 2005'te önerdiği gibi Huffman kodlarının) olumsuz log-olasılık olasılığını hiç hesaplamıyor ve sadece çok Bu tür hesaplamalar ve akıllı bir olasılık dağılımı göz önüne alındığında, olumsuz vakaların küçük bir örneği son derece iyi çalışıyor. Ve ikinci ve hatta daha büyük katkı, doğal olarak,P(context|wt=i)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.