«gradient-descent» etiketlenmiş sorular

Degrade iniş birinci dereceden yinelemeli bir optimizasyon algoritmasıdır. Degrade iniş kullanarak bir işlevin yerel bir minimumunu bulmak için, geçerli noktadaki işlevin degradesinin (veya yaklaşık degradenin) negatifiyle orantılı adımlar atılır. Stokastik gradyan iniş için [sgd] etiketi de vardır.




6
Dışbükey problemler için Stokastik Gradyan İnişi'ndeki (SGD) gradyan her zaman global aşırı değeri gösterir mi?
Dışbükey bir maliyet fonksiyonu göz önüne alındığında, optimizasyon için SGD kullanılarak, optimizasyon işlemi sırasında belirli bir noktada bir degradeye (vektör) sahip olacağız. Sorum şu ki, dışbükeydeki noktaya göre, gradyan yalnızca işlevin en hızlı yükseldiği / azaldığı yönü işaret ediyor mu, yoksa gradyan her zaman maliyet işlevinin en uygun / en …

1
Degrade iniş için sonlandırma koşulu nasıl tanımlanır?
Aslında, size gradyan inişi için sonlandırma koşulunu nasıl tanımlayabileceğimi sormak istiyorum. Yineleme sayısına dayanarak, yani 100 yineleme için parametre değerlerini dikkate alarak durdurabilir miyim? Yoksa 'new' ve 'old' iki parametresindeki farklılığın, diyelim sırasına göre çok küçük olmasını beklemeli miyim ? Bu kesinlikle çok zaman alacaktır.10- 610-610^{-6} En iyi yol nedir? …

3
Koordinat ve gradyan inişine karşı
İki algoritma için farklı kullanım durumlarının ne olduğunu merak ediyordum, Koordinat İniş ve Degrade İniş . Koordinat iniş işlevinin düzgün olmayan işlevlerle problemleri olduğunu biliyorum, ancak SVM ve LASSO gibi popüler algoritmalarda kullanılıyor. Ancak gradyan inişi, özellikle YSA'ların yeniden dirilişi ile ve diğer birçok makine öğrenim görevi için daha yaygın …

1
ResNet atlama aracılığıyla gradyan geri yayılımı bağlantıları atla
Degradelerin ResNet modülleri / atlama bağlantıları kullanarak bir sinir ağı üzerinden nasıl yayıldığını merak ediyorum. ResNet hakkında birkaç soru gördüm (örneğin , atlama katmanı bağlantılarına sahip sinir ağı ) ancak bu, özellikle eğitim sırasında degradelerin geri yayılması hakkında sorular soruyor. Temel mimari burada: Görüntü Tanıma için Kalıntı Ağları Çalışması adlı …

3
Neden sinir ağları ile degrade iniş kullanılmalı?
Geri yayılım algoritmasını kullanarak bir sinir ağını eğitirken, ağırlık güncellemelerini belirlemek için degrade iniş yöntemi kullanılır. Benim soru: Daha çok yavaş belirli ağırlığına göre en az noktasını bulmak için dik iniş metodunu kullanarak yerine, neden türevi set değil , ve hatayı en aza indiren ağırlık değerini bulun.wd(Error)dw=0d(Error)dw=0\frac{d(\text{Error})}{dw}=0www Ayrıca, geri yayılımdaki …

3
Çekirdeklenmiş SVM'ler için Gradient İniş mümkün mü (eğer öyleyse, insanlar neden Quadratic Programming kullanıyorlar)?
İnsanlar neden çekirdek SVM'lerle uğraşırken Kuadratik Programlama tekniklerini (SMO gibi) kullanıyor? Gradyan İnişinin nesi yanlış? Çekirdekle kullanmak imkansız mı yoksa çok mu yavaş (ve neden?). İşte biraz daha fazla bağlam: SVM'leri biraz daha iyi anlamaya çalışırken, aşağıdaki maliyet işlevini kullanarak doğrusal bir SVM sınıflandırıcısını geliştirmek için Gradient Descent kullandım: J( …

3
Perceptron kuralından Gradient İnişe: Sigmoid aktivasyon işlevine sahip Perceptronların Logistic Regression'dan farkı nedir?
Temelde benim sorum çok katmanlı Algılayıcılarda, algılayıcıların bir sigmoid aktivasyon işlevi ile kullanıldığıdır. Böylece güncelleme kuralında olarak hesaplanır.y^y^\hat{y} y^= 11 + exp( - wTxben)y^=11+exp⁡(-wTxben)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} Bu "sigmoid" Perceptron'un lojistik regresyondan farkı nedir? Tek katmanlı bir sigmoid algılayıcının, her ikisinin de kullanması anlamında bir lojistik regresyona eşdeğer olduğunu söyleyebilirim. güncelleme …

2
Sinir ağlarında neden diğer meta-sezgisel yöntemlerden ziyade gradyan yöntemleri kullanılır?
Derin ve sığ sinir ağlarının eğitiminde, gradyan yöntemleri (örneğin, gradyan inişi, Nesterov, Newton-Raphson) neden diğer meta-sezgilerin aksine yaygın olarak kullanılmaktadır? Meta-sezgisel olarak, yerel bir minimada sıkışmayı önlemek için geliştirilen benzetilmiş tavlama, karınca kolonisi optimizasyonu vb. Yöntemleri kastediyorum.

3
Genetik algoritmalar ne zaman optimizasyon için iyi bir seçimdir?
Genetik algoritmalar bir optimizasyon yöntemidir. Genellikle stokastik gradyan inişi ve türevleri fonksiyon optimizasyonu için en iyi seçimdir, ancak bazen genetik algoritmalar hala kullanılmaktadır. Örneğin, NASA'nın ST5 uzay aracının anteni genetik bir algoritma ile oluşturuldu: Genetik optimizasyon yöntemleri ne zaman daha yaygın gradyan iniş yöntemlerinden daha iyi bir seçimdir?



3
Parti büyüklüğü SGD'nin yakınsamasını nasıl etkiler ve neden?
Minibatch boyutu büyüdükçe SGD'nin yakınsamasının aslında zorlaştığı / kötüleştiği gibi birçok tartışmadan benzer bir sonuç gördüm, örneğin bu makale ve bu cevap . Ayrıca, erken aşamada küçük öğrenme oranları veya parti boyutları gibi hileler kullanan insanların büyük parti boyutları ile bu zorluğu gidermek için duydum. Ancak bir minibatch ortalama kaybı …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.