Word2Vec'in atlama gram modeli çıktı vektörlerini nasıl oluşturur?

11

Word2Vec algoritmasının atlama gram modelini anlamada sorunlar yaşıyorum.

Sürekli kelime torbasında, bağlam kelimelerinin Sinir Ağı'na nasıl "sığabileceğini" görmek kolaydır, çünkü tek bir sıcak kodlama gösterimlerinin her birini W giriş matrisi ile çarptıktan sonra temel olarak ortalamalandırırsınız.

Bununla birlikte, atlama-gram söz konusu olduğunda, giriş kelimesi vektörünü yalnızca bir sıcak kodlamayı giriş matrisi ile çarparak alırsınız ve daha sonra, bağlam sözcükleri için C (= pencere boyutu) vektörlerinin gösterimlerini çarparak W 'çıkış matrisi ile girdi vektörü gösterimi.

Demek istediğim, boyutunda bir kelime dağarcığına ve giriş matrisine ve , boyutunda kodlamaya sahip olmak ve çıkış matris olarak. Kelime göz önüne alındığında bir sıcak kodlama ile bağlam sözlerle ve (bir sıcak temsilcileri ile ve Eğer çarpma durumunda), giriş matrisi ile olsun , şimdi bundan puanı vektörlerini nasıl üretiyorsunuz ? $V$ $N$ $W \in \mathbb{R}^{V\times N}$ $W' \in \mathbb{R}^{N\times V}$ $w_i$ $x_i$ $w_j$ $w_h$ $x_j$ $x_h$ $x_i$ $W$ ${\bf h} := x_i^TW = W_{(i,\cdot)} \in \mathbb{R}^N$ $C$

— crscardellino
kaynak

7

Aynı problemi anladım. Çıktı puanı vektörü tüm C terimleri için aynı olacaktır. Ancak, her bir sıcak temsil edilen vektör ile hata farkı farklı olacaktır. Bu nedenle hata vektörleri, ağırlıkları güncellemek için geri yayılımda kullanılır.

Yanılıyorsam lütfen beni düzeltin.

kaynak: https://iksinc.wordpress.com/tag/skip-gram-model/

— Yazhi
kaynak

yani ?

W^{'} \in R^{N \times (V * C)}

$W' \in \mathbb{R}^{N\times (V*C)}$

— Fabich

0

Her iki modelde de çıktı puanı kullandığınız skor fonksiyonuna bağlıdır. Softmax veya negatif örnekleme olmak üzere iki skor fonksiyonu olabilir. Yani bir softmax skor fonksiyonu kullanıyorsunuz. N * D puan fonksiyonu boyutu alacaksınız. Burada D, bir kelime vektörünün boyutudur. N, örnek sayısıdır. Her kelime nöral ağ mimarisinde bir sınıf gibidir.

— Şaman Siriwardhana
kaynak

0

Atlamalı gram modelinde, bir sıcak kodlanmış kelime iki katmanlı sığ sinir ağına beslenir. Giriş, bir sıcak kodlanmış olduğu, gizli katmanlı giriş gizli ağırlık matrisinin yalnızca bir satır (diyelim içeren çünkü satır giriş vektörünün satır biridir). $k_{th}$ $k_{th}$

Her kelimenin puanları aşağıdaki denklemle hesaplanır.

$u = \mathcal{W'}^Th$

burada h, gizli katmandaki bir vektördür ve , gizli çıktı ağırlık matrisidir. Hesaplandıktan sonra çok boyutlu dağılımlar hesaplanır; burada , windows boyutundadır. Dağılımlar aşağıdaki denklemle hesaplanır. $\mathcal{W'}$ $u$ $\mathcal{C}$ $\mathcal{C}$

$p(w_{c,j} = w_{O,c}|w_I)=\frac{\exp{u_{c,j}}}{\sum_{j'=1}^V\exp{u_{j'}}}$

Gördüğünüz gibi tüm dağılımları farklı. (Daha fazla bilgi için: https://arxiv.org/pdf/1411.2738.pdf ). Aslında, aşağıdaki şekil gibi bir şey kullanırlarsa bu daha açık olurdu. $\mathcal{C}$

Özetle, sadece bir kaynak vektör . Ancak, softmax işlevi kullanılarak farklı dağılımlar hesaplanır. $u$ $\mathcal{C}$

$\textbf{References:}$

Xin Rong, Word2Vec Parametre Öğrenme Açıklaması

— user3108764
kaynak

Yani W matrisi esasen vektörler (algoritmanın çıktısı) kelimesidir ve W 'attığımız tamamen farklı bir matristir?

— Nadav B

W 'aynı zamanda eşit derecede iyi olan kelime vektörleridir.

— user3108764

1

Bu yanlış. Word2Vec Parametre Öğrenimi Açıklaması Xin Rong denklemine (26) bakınız. Aslında . Çıktı skoru vektörü tüm C terimleri için aynı olacaktır.

p (w_{c, j} = w_{O, c} | w_{I}) = \frac{\exp u_{c, j}}{\sum_{j^{'} = 1}^{V} \exp u_{j^{'}}} = \frac{\exp u_{j}}{\sum_{j^{'} = 1}^{V} \exp u_{j^{'}}}

$p(w_{c,j} = w_{O,c}|w_I)=\frac{\exp{u_{c,j}}}{\sum_{j'=1}^V\exp{u_{j'}}}=\frac{\exp{u_{j}}}{\sum_{j'=1}^V\exp{u_{j'}}}$

— siulkilulki