«backpropagation» etiketlenmiş sorular

"Hataların geriye doğru yayılması" nın kısaltması olan backpropagation, gradyan inişi gibi bir optimizasyon yöntemiyle birlikte kullanılan yapay sinir ağlarını eğitmek için yaygın bir yöntemdir.

6
Geri yayılım olmadan bir sinir ağı eğitmek mümkün mü?
Birçok sinir ağı kitabı ve öğreticisi, esas olarak degradeyi hesaplamak için bir araç olan backpropagation algoritmasına çok zaman harcıyor. Diyelim ki ~ 10K parametreleri / ağırlıkları olan bir model inşa ediyoruz. Bazı degrade serbest optimizasyon algoritmaları kullanarak optimizasyonu çalıştırmak mümkün müdür? Sayısal gradyanı hesaplamanın çok yavaş olacağını düşünüyorum, ama Nelder-Mead, …


1
Softmax_cross_entropy_with_logits'in softmax_cross_entropy_with_logits_v2 den farkı nedir?
Özellikle, bu ifadeyi merak ediyorum galiba: TensorFlow'un gelecekteki ana sürümleri, gradyanların varsayılan olarak backprop'taki etiket girişlerine akmasına izin verecek. Kullandığımda gösteriliyor tf.nn.softmax_cross_entropy_with_logits. Aynı mesajda beni incelemeye çağırıyor tf.nn.softmax_cross_entropy_with_logits_v2. Dokümantasyona baktım, ancak yalnızca şunu belirtir tf.nn.softmax_cross_entropy_with_logits_v2: Geri yayılım hem logitlerde hem de etiketlerde gerçekleşecek. Etiketlerin geri yayılmasını engellemek için, etiket tensörlerini …

6
Softmax / Çapraz Entropi ile geri yayılım
Geri yayılımın softmax / çapraz entropi çıkış katmanı için nasıl çalıştığını anlamaya çalışıyorum. Çapraz entropi hata fonksiyonu: E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j sırasıyla nöron j'de hedef ve çıktı olarak ttt ve ile . Toplam, çıktı katmanındaki her nöronun üzerindedir. o j , softmax işlevinin bir sonucudur:ooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} Yine, toplam, çıktı …

5
Sinir Ağı eğitimi için Backpropagation vs Genetik Algoritma
Her yöntemin artılarını ve eksilerini tartışan birkaç makale okudum, bazıları GA'nın en uygun çözümü bulmada herhangi bir gelişme sağlamadığını, diğerleri ise bunun daha etkili olduğunu gösteriyor. Genel olarak literatürde GA'nın tercih edildiği görülmektedir (çoğu insan ihtiyaç duydukları sonuçları elde etmek için bir şekilde değiştirmelerine rağmen), o zaman neden yazılım çözümlerinin …

4
Tanh neden bir aktivasyon işlevi olarak neredeyse her zaman sigmoidlerden daha iyidir?
Andrew Ng'un Yapay Sinir Ağları ve Coursera'daki Derin Öğrenme kursunda kullanmanın neredeyse her zaman kullanmanın tercih edildiğini söylüyor .tanhtanhtanhsigmoidsigmoidsigmoid O verir nedeni çıkışları kullanarak olmasıdır daha etrafında 0 ziyade merkezi 'ın 0.5, ve bu 'biraz daha kolay bit sonraki katman için öğrenme yapar'.tanhtanhtanhsigmoidsigmoidsigmoid Aktivasyonun çıkış hızını merkezlemek neden öğreniyor? Sanırım …


1
Sıfır merkezli olmayan aktivasyon neden geri yayılmada bir sorun?
Burada aşağıdakileri okudum : Sigmoid çıkışları sıfır merkezli değildir . Bu istenmeyen bir durumdur, çünkü bir Sinir Ağında daha sonraki işlem katmanlarındaki nöronlar (bu konuda daha fazlası) sıfır merkezli olmayan veriler alacaktır. Bunun gradyan iniş sırasındaki dinamikleri üzerinde etkileri vardır, çünkü eğer bir nörona giren veriler her zaman pozitif ise …

1
ResNet atlama aracılığıyla gradyan geri yayılımı bağlantıları atla
Degradelerin ResNet modülleri / atlama bağlantıları kullanarak bir sinir ağı üzerinden nasıl yayıldığını merak ediyorum. ResNet hakkında birkaç soru gördüm (örneğin , atlama katmanı bağlantılarına sahip sinir ağı ) ancak bu, özellikle eğitim sırasında degradelerin geri yayılması hakkında sorular soruyor. Temel mimari burada: Görüntü Tanıma için Kalıntı Ağları Çalışması adlı …

3
Neden sinir ağları ile degrade iniş kullanılmalı?
Geri yayılım algoritmasını kullanarak bir sinir ağını eğitirken, ağırlık güncellemelerini belirlemek için degrade iniş yöntemi kullanılır. Benim soru: Daha çok yavaş belirli ağırlığına göre en az noktasını bulmak için dik iniş metodunu kullanarak yerine, neden türevi set değil , ve hatayı en aza indiren ağırlık değerini bulun.wd(Error)dw=0d(Error)dw=0\frac{d(\text{Error})}{dw}=0www Ayrıca, geri yayılımdaki …

2
Sinir ağlarında neden diğer meta-sezgisel yöntemlerden ziyade gradyan yöntemleri kullanılır?
Derin ve sığ sinir ağlarının eğitiminde, gradyan yöntemleri (örneğin, gradyan inişi, Nesterov, Newton-Raphson) neden diğer meta-sezgilerin aksine yaygın olarak kullanılmaktadır? Meta-sezgisel olarak, yerel bir minimada sıkışmayı önlemek için geliştirilen benzetilmiş tavlama, karınca kolonisi optimizasyonu vb. Yöntemleri kastediyorum.


2
Geri yayılım algoritması
Çok katmanlı algılayıcıda (MLP) kullanılan geri yayılım algoritması üzerinde hafif bir karışıklık var . Hata, maliyet fonksiyonu tarafından ayarlanır. Geri çoğaltmada, gizli katmanların ağırlığını ayarlamaya çalışıyoruz. Anlayabildiğim çıkış hatası, yani e = d - y[Abonelikler olmadan]. Sorular: Gizli katman hatası nasıl alınır? Kişi nasıl hesaplar? Geri çoğaltırsam, uyarlanabilir bir filtrenin …

1
(Mini) toplu degrade düzgün degradelerin toplamı veya ortalaması? [çiftleme]
Bu sorunun zaten bir cevabı var : SGD'de ağırlık güncellemeleri için degradelerin ortalaması veya toplamı (1 cevap) 17 gün önce kapalı . Mini toplu degrade iyi uyguladığımda, eğitim toplu işindeki tüm örneklerin degradelerinin ortalamasını aldım. Ancak, şimdi en uygun öğrenme oranının çevrimiçi gradyan terbiyesinden çok daha yüksek olduğunu fark ettim. …

3
Neden bir RNN'de zaman içinde geri yayılır?
Tekrarlayan bir sinir ağında, genellikle birkaç zaman adımında ilerler, ağı "açar" ve daha sonra girdi dizisi boyunca geri yayılırsınız. Neden sadece sekanstaki her bir adımdan sonra ağırlıkları güncellemiyorsunuz? (1 kısaltma uzunluğunun kullanılmasına eşdeğerdir, bu yüzden açılacak bir şey yoktur) Bu, yok olan degrade sorununu tamamen ortadan kaldırır, algoritmayı büyük ölçüde …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.