İstatistikler ve Büyük Veri sgd

3

Toplu gradyan inişine karşı stokastik gradyan inişine karşı

Bazı eğitim seti olduğunu varsayalım için . Ayrıca eğitim setinde bir tür denetimli öğrenme algoritması çalıştırdığımızı varsayalım. Hipotezler, . ve arasındaki "mesafeyi" en aza indiren parametrelerini bulmamız gerekir . Let(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} Sonra en aza indiren bulmak istiyoruz …

101 optimization gradient-descent sgd

2

Stokastik gradyan inişini kim icat etti?

Degrade iniş ve Stokastik degrade iniş tarihini anlamaya çalışıyorum . Degrade iniş icat edildi Cauchy 1847 yılında dökmek Générale Methode la çözünürlüklü des systèmes d'denklemler simultanées . pp. 536–538 Daha fazla bilgi için buraya bakın . O zamandan beri gradyan iniş yöntemleri gelişmeye devam etti ve tarihlerini bilmiyorum. Özellikle stokastik …

36 references gradient-descent history sgd

6

Dışbükey problemler için Stokastik Gradyan İnişi'ndeki (SGD) gradyan her zaman global aşırı değeri gösterir mi?

Dışbükey bir maliyet fonksiyonu göz önüne alındığında, optimizasyon için SGD kullanılarak, optimizasyon işlemi sırasında belirli bir noktada bir degradeye (vektör) sahip olacağız. Sorum şu ki, dışbükeydeki noktaya göre, gradyan yalnızca işlevin en hızlı yükseldiği / azaldığı yönü işaret ediyor mu, yoksa gradyan her zaman maliyet işlevinin en uygun / en …

25 neural-networks optimization gradient-descent sgd convex

3

Parti büyüklüğü SGD'nin yakınsamasını nasıl etkiler ve neden?

Minibatch boyutu büyüdükçe SGD'nin yakınsamasının aslında zorlaştığı / kötüleştiği gibi birçok tartışmadan benzer bir sonuç gördüm, örneğin bu makale ve bu cevap . Ayrıca, erken aşamada küçük öğrenme oranları veya parti boyutları gibi hileler kullanan insanların büyük parti boyutları ile bu zorluğu gidermek için duydum. Ancak bir minibatch ortalama kaybı …

18 machine-learning neural-networks optimization gradient-descent sgd

1

Stokastik degrade iniş, standart degrade inişe kıyasla zamandan nasıl tasarruf edebilir?

Standart Degrade İniş, tüm eğitim veri kümesi için degradeyi hesaplar. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Önceden tanımlanmış bir dönem sayısı için, ilk olarak parametre vektör parametrelerimizle tüm veri kümesi için kayıp fonksiyonunun gradient vektörü ağırlıkları_gradını hesaplıyoruz. Stokastik Degrade İniş, …

16 machine-learning optimization gradient-descent computational-statistics sgd

4

Bir eyer noktasında nasıl sıkışabilir?

Şu anda, mini-toplu degrade inişinin bir eyer noktasında nasıl sıkışabileceğinden biraz şaşkınım. Çözüm, bunu alamayacağım kadar önemsiz olabilir. Her çağ bir yeni örnek almak ve maliyet fonksiyonu her parti, sadece statik yani, yeni bir parti dayalı yeni hatayı hesaplar hangi degrade da her bir mini seri için değiştirmek .. ama …

14 gradient-descent sgd

1

RMSProp ve Adam ve SGD

RMSProp, Adam ve SGD ile ağları kullanarak EMNIST doğrulama seti üzerinde deneyler yapıyorum. SGD (öğrenme oranı 0.1) ve bırakma (0.1 bırakma probu) ile L2 düzenlenmesi (1e-05 cezası) ile% 87 doğruluk elde ediyorum. RMSProp ve Adam ile aynı yapılandırmayı ve 0.001 başlangıç öğrenme oranını test ederken,% 85 doğruluk ve daha az …

12 machine-learning optimization sgd adam

1

Derin Üretken Modeller için VAE ve Stokastik Backpropagation arasındaki fark nedir?

Derin Üreten Modeller için Otomatik Kodlama Varyasyonel Bayileri ve Stokastik Backpropagation arasındaki fark nedir ? Her iki yöntemdeki çıkarım aynı sonuçlara yol açar mı? Her iki yazar grubunun birbirini göstermesine rağmen, iki yöntem arasında açık bir karşılaştırma olduğunun farkında değilim.

10 deep-learning inference latent-variable variational-bayes sgd

«sgd» etiketlenmiş sorular