Stokastik gradyan inişi için parti büyüklüğü ne kadar olmalıdır?

"Örnek size" olarak adlandırılır bahsediyoruz seri boyutu , . Toplu iş boyutu parametresi, mini toplu Stochastic Gradient Descent (SGD) içeren bir sinir ağını eğittiğinizde ayarlayacağınız hiper parametrelerden yalnızca biridir ve verilere bağlıdır. Hiper-parametre aramanın en temel yöntemi, ağı birleştiren bir çift bulmak için öğrenme oranı ve parti büyüklüğü üzerinde bir ızgara araması yapmaktır. $B$

Parti boyutunun ne olması gerektiğini anlamak için parti gradyanı inişi, çevrimiçi SGD ve mini parti SGD arasındaki ilişkiyi görmek önemlidir. Burada, her üç tipin de genelleştirilmesi olan mini-seri SGD'deki ağırlık güncelleme basamağının genel formülü bulunmaktadır. [ 2 ]

θ_{t + 1} \leftarrow θ_{t} - ε (t) \frac{1}{B} Σ_{b = 0}^{B - 1} \frac{\partial L (θ, m_{b})}{\partial θ}

$\theta_{t+1} \leftarrow \theta_{t} - \epsilon(t) \frac{1}{B} \sum\limits_{b=0}^{B - 1} \dfrac{\partial \mathcal{L}(\theta, \textbf{m}_b)}{\partial \theta}$

Toplu degrade iniş, $B = |x|$
Çevrimiçi stokastik gradyan inişi: $B = 1$
Mini toplu stokastik gradyan iniş: ama . $B > 1$ $B < |x|$

1 ile kayıp fonksiyonunun artık rastgele bir değişken olmadığını ve stokastik bir yaklaşım olmadığını unutmayın.

SGD, normal "toplu" gradyan inişinden daha hızlı bir şekilde birleşir, çünkü egzersiz setinin rastgele seçilen bir alt kümesine baktıktan sonra ağırlıkları günceller. Let bizim eğitim seti olmak ve izin . parti büyüklüğü sadece : . $x$ $m \subset x$ $B$ $m$ $B = |m|$

Toplu gradyan iniş ağırlıkları güncelleştirir tüm veri kümesi arasında gradyanları kullanılarak ; SGD, mini parti için ortalama gradyanlar kullanarak ağırlıkları günceller . (Ortalamanın bir toplamın aksine kullanılması, algoritmanın veri kümesi çok büyükse çok büyük adımlar atmasını engeller. Aksi takdirde, öğrenme oranınızı veri kümesinin boyutuna göre ayarlamanız gerekir.) Bunun beklenen değeri SGD'de kullanılan gradyanın stokastik yaklaşımı, parti gradyanı inişinde kullanılan deterministik gradyana eşittir. $\theta$ $x$ $m$ . $\mathbb{E}[\nabla \mathcal{L}_{SGD}(\theta, \textbf{m})] = \nabla \mathcal{L}(\theta, \textbf{x})$

Bir örnek alıp ağırlıklarımızı her güncellediğimizde mini-batch olarak adlandırılır . Veri setinin tamamını taradığımız her seferde buna çağ denir .

En bazı veri vektör olduğunu varsayalım , bizim sinir ağı parameterizes bir ilk ağırlık vektörü ve kayıp fonksiyonu biz küçültmeye çalışıyorlar. Eğer eğitim örneklerine ve toplu boyutuna sahipsek, bu eğitim örneklerini C mini gruplarına bölebiliriz: $\textbf{x} : \mathbb{R}^D$ $\theta_0 : \mathbb{R}^{S}$ $\mathcal{L}(\theta, \textbf{x}) : \mathbb{R}^{S} \rightarrow \mathbb{R}^{D} \rightarrow \mathbb{R}^S$ $T$ $B$

C = ⌈ T / B ⌉

$C = \lceil T / B \rceil$

Basit olması için, T'nin B tarafından eşit bir şekilde bölünebilir olduğunu varsayabiliriz, ancak, bu olmadığında, genellikle olmadığı gibi, her mini partiye boyutunun bir işlevi olarak uygun ağırlık atanmalıdır.

$M$

\begin{aligned} t & \leftarrow 0 \\ süre t & < M \\ θ_{t + 1} & \leftarrow θ_{t} - ε (t) \frac{1}{B} Σ_{b = 0}^{B - 1} \frac{\partial L (θ, m_{b})}{\partial θ} \\ t & \leftarrow t + 1 \end{aligned}

$\begin{align*} t &\leftarrow 0 \\ \textrm{while } t &< M \\ \theta_{t+1} &\leftarrow \theta_{t} - \epsilon(t) \frac{1}{B} \sum\limits_{b=0}^{B - 1} \dfrac{\partial \mathcal{L}(\theta, \textbf{m}_b)}{\partial \theta} \\ t &\leftarrow t + 1 \end{align*}$

Not: Gerçek hayatta, bu eğitim örneği verilerini bellekten okuyoruz ve önbellek önbelleğe alma ve bilgisayarınız tarafından yapılan diğer bellek püf noktaları nedeniyle, bellek erişimi birleştiğinde , yani belleği okuduğunuzda algoritmanız daha hızlı çalışacaktır. sırayla ve rastgele atlamak yok. Bu nedenle, çoğu SGD uygulaması veri kümesini karıştırır ve ardından örnekleri okunacakları sırayla belleğe yükler.

Yukarıda tarif edilen vanilya (momentum yok) SGD için ana parametreler:

$\epsilon$

Epsilonu, dönem sayısından öğrenme oranına kadar bir işlev olarak düşünmeyi seviyorum. Bu fonksiyona öğrenme oranı programı denir .

ε (t) : N- \to R,

$\epsilon(t) : \mathbb{N} \rightarrow \mathbb{R}$

Öğrenme oranını sabit tutmak istiyorsanız epsilon'u sabit bir fonksiyon olarak tanımlayın.

Parti boyutu

Parti büyüklüğü, ağırlık güncellemesi yapmadan önce kaç örneğe bakacağınızı belirler. Ne kadar düşük olursa, eğitim sinyali o kadar gürültülü olur, ne kadar yüksek olursa, her adım için degradeyi hesaplamak o kadar uzun sürer.

Alıntılar ve Ek Okumalar:

— sabalaba
kaynak

For simplicity we can assume that D is evenly divisible by B. T'nin B tarafından eşit bir şekilde bölünmesi gerektiği anlamına gelmiyor mu?

— Antoine

ve OP'nin sorusuna yanıt vermek için

B is typically chosen between 1 and a few hundreds, e.g. B = 32 is a good default value, with values above 10 taking advantage of the speed-up of matrix-matrix products over matrix-vector products.

(Bengio'nun 2012 raporundan) ekleyebilirsin

— Antoine

@sabalaba Güzel cevap. Ancak, "M devirleriyle SGD için yinelemeli bir algoritma aşağıda verilmiştir" denkleminde, her bir mini toplu işlemden sonra ağırlığı güncelleyeceğimiz anlamına gelmiyor mu? Başka bir deyişle, dönemin içinde döngünün içinde başka bir döngü (C mini partileri üzerinde) olmamalı, yani t <M

— Kaushik Acharya

İstatistiklerde, bir örneklem çok sayıda gözlemden oluşur. Bu nedenle örneklem büyüklüğü istatistikçiler tarafından doğru bir şekilde yorumlanmaktadır. Bilgisayar bilimlerinde (özellikle makine öğreniminde) bir örnek , tek bir gözlemdir ve toplu bir örnek koleksiyonudur. Biraz kafa karıştırıcı olabilir. İstatistikçilere bir örnek veri bilimcilerine yönelik bir gruptur

— Oleg Melnikov

n

$n$

m

$m$