Konvansiyonel sinir ağları hakkında çok şey okudum ve yok olan gradyan probleminden nasıl kaçındıklarını merak ediyordum. Derin inanç ağlarının tek seviyeli otomatik kodlayıcıları veya diğer önceden eğitilmiş sığ ağları biriktirdiğini biliyorum ve bu nedenle bu sorunu önleyebilirim ama CNN'lerde nasıl önlendiğini bilmiyorum.
Wikipedia'ya göre :
"yukarıda belirtilen" kaybolan gradyan sorununa rağmen ", GPU'ların üstün işlem gücü, çok katmanlı derin ileri beslemeli sinir ağları için düz geri yayılımı mümkün kılmaktadır."
GPU işlemenin neden bu sorunu gidereceğini anlamıyorum?
GPU's are fast correlated with vanishing gradients
, birden fazla matris çarpımını işlemek için büyük bellek bant genişliği ile hızlı mantığı anlayabilirim! ama bunun türevlerle ne ilgisi olduğunu açıklar mısınız? Kaybolan degrade konu ağırlık başlatma ile daha fazlasını görünüyor , değil mi!