«sgd» etiketlenmiş sorular

3
Toplu gradyan inişine karşı stokastik gradyan inişine karşı
Bazı eğitim seti olduğunu varsayalım için . Ayrıca eğitim setinde bir tür denetimli öğrenme algoritması çalıştırdığımızı varsayalım. Hipotezler, . ve arasındaki "mesafeyi" en aza indiren parametrelerini bulmamız gerekir . Let(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} Sonra en aza indiren bulmak istiyoruz …

2
Stokastik gradyan inişini kim icat etti?
Degrade iniş ve Stokastik degrade iniş tarihini anlamaya çalışıyorum . Degrade iniş icat edildi Cauchy 1847 yılında dökmek Générale Methode la çözünürlüklü des systèmes d'denklemler simultanées . pp. 536–538 Daha fazla bilgi için buraya bakın . O zamandan beri gradyan iniş yöntemleri gelişmeye devam etti ve tarihlerini bilmiyorum. Özellikle stokastik …

6
Dışbükey problemler için Stokastik Gradyan İnişi'ndeki (SGD) gradyan her zaman global aşırı değeri gösterir mi?
Dışbükey bir maliyet fonksiyonu göz önüne alındığında, optimizasyon için SGD kullanılarak, optimizasyon işlemi sırasında belirli bir noktada bir degradeye (vektör) sahip olacağız. Sorum şu ki, dışbükeydeki noktaya göre, gradyan yalnızca işlevin en hızlı yükseldiği / azaldığı yönü işaret ediyor mu, yoksa gradyan her zaman maliyet işlevinin en uygun / en …

3
Parti büyüklüğü SGD'nin yakınsamasını nasıl etkiler ve neden?
Minibatch boyutu büyüdükçe SGD'nin yakınsamasının aslında zorlaştığı / kötüleştiği gibi birçok tartışmadan benzer bir sonuç gördüm, örneğin bu makale ve bu cevap . Ayrıca, erken aşamada küçük öğrenme oranları veya parti boyutları gibi hileler kullanan insanların büyük parti boyutları ile bu zorluğu gidermek için duydum. Ancak bir minibatch ortalama kaybı …

1
Stokastik degrade iniş, standart degrade inişe kıyasla zamandan nasıl tasarruf edebilir?
Standart Degrade İniş, tüm eğitim veri kümesi için degradeyi hesaplar. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Önceden tanımlanmış bir dönem sayısı için, ilk olarak parametre vektör parametrelerimizle tüm veri kümesi için kayıp fonksiyonunun gradient vektörü ağırlıkları_gradını hesaplıyoruz. Stokastik Degrade İniş, …

4
Bir eyer noktasında nasıl sıkışabilir?
Şu anda, mini-toplu degrade inişinin bir eyer noktasında nasıl sıkışabileceğinden biraz şaşkınım. Çözüm, bunu alamayacağım kadar önemsiz olabilir. Her çağ bir yeni örnek almak ve maliyet fonksiyonu her parti, sadece statik yani, yeni bir parti dayalı yeni hatayı hesaplar hangi degrade da her bir mini seri için değiştirmek .. ama …

1
RMSProp ve Adam ve SGD
RMSProp, Adam ve SGD ile ağları kullanarak EMNIST doğrulama seti üzerinde deneyler yapıyorum. SGD (öğrenme oranı 0.1) ve bırakma (0.1 bırakma probu) ile L2 düzenlenmesi (1e-05 cezası) ile% 87 doğruluk elde ediyorum. RMSProp ve Adam ile aynı yapılandırmayı ve 0.001 başlangıç ​​öğrenme oranını test ederken,% 85 doğruluk ve daha az …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.